1. 분류, 군집화 비교
ㅇ 분류 (Classification, Categorization)
- 주어진 데이터를 어떤 부류(분류범주,분류영역,클래스,카테고리)에 속하는지를 판단하는 것
ㅇ 군집화 (Clustering)
- 주어진 데이터들을 비슷한 특성별로 모아 (여러 그룹으로 분할하면서) 큰 단위로 만들어 감
※ [참고용어]
- 집합, 분할, 관계(동치관계,순서관계,함수관계 등), ...
2. 분류기, 분류자 (Classifier)
ㅇ 주어진 패턴을 어떤 부류에 할당시키는 장치/규칙/프로그램/알고리즘/모델
- 데이터의 특징을 분석하고, 이를 기반으로 특정 카테고리에 속하는지를 예측함
ㅇ 분류기 사례
- 例 1) 여러 패턴 중 특정 패턴을 검출(Detection)하는 것
- 例 2) 수많은 자료 중 질의에 적합한 것을 검색(Retrieval)하는 것
- 例 3) 개별 패킷별로 중요도 등에 따라 패킷 분류화(Packet Classification)하는 것
3. 분류기의 단계
ㅇ (표현) 우선, 분류기 모델 선택을 함 (모델 선택 : model selection) (★)
ㅇ (학습) 선택된 모델의 분류기를 학습 시킴
ㅇ (분류) 학습이 끝난 분류기에, 실제 입력 데이터를 분류 시킴
ㅇ (성능 평가) 분류기 성능 평가
4. 분류기의 표현 모델
ㅇ 분류기를 표현하는 수학적 모델들
ㅇ 다항식에 의한 모델들의 例)
- 결정 직선 (1차)
- 결정 곡선 (2차)
- 결정 곡선 (3차 이상)
- 결정 초평면 (4차원 이상의 공간을 둘로 분할하는 평면)
ㅇ 더욱 복잡한 결정 경계를 갖는 분류 방법론들의 例)
- SVM (Support Vector Machine, 서포트 벡터 머신) : 커널 선택
- 신경망 (Artificial Neutral Network, ANN) : 신경망의 크기
. 퍼셉트론 (선형 분류기), 다층 퍼셉트론 (비선형 분류기) 등
5. 분류기의 알고리즘/방법 상의 구분
ㅇ 질적 분류기 : (질적 데이터에 적용)
- 결정 트리
- 스트링 인식기
ㅇ 양적 분류기 : (양적 데이터에 적용)
- 베이시언 분류기(베이지안 분류기) (Bayesian Classifier)
. 패턴이 입력되면, 범주별 사후 확률을 계산하고, 그들 중 가장 큰 값의 범주로 분류
- SVM (Support Vector Machine)
. 분류 오류율의 최소화가 아닌, 여백 최대화에 중점을 둔 분류법
.. 한 쪽 레이블(분류 표지,class label)에 치우치지 않고,
.. 여백을 최대로 하는 결정 경계를 찾는 이진 분류기
. 서포트 벡터 : 결정경계로 부터 가장 가까이에 있는 학습데이터
- kNN 알고리즘 (k - Nearest Neibor)
. 기계학습 알고리즘에서 가장 간단하고 이해하기 쉬움
. 새로 입력된 데이터의 특정 범주 안의 레이블 데이터의 개수에 따라,
레이블을 판별 ( k의 값에 따라 레이블이 달라짐 )
- MLP (Multi Layer Perception, 다층 퍼셉트론)
. 인공 신경망의 일종