1. 분류, 군집화 비교
ㅇ 분류 (Classification, Categorization)
- 주어진 데이터를 어떤 부류(분류범주,분류영역,클래스,카테고리)에 속하는지를 판단하는 것
. 데이터가 미리 정의된 카테고리를 가지고 있음
. 지도 학습의 대표적인 예
ㅇ 군집화 (Clustering)
- 주어진 데이터들을 비슷한 특성별로 모아 (여러 그룹으로 분할하면서) 큰 단위로 만들어 감
. 데이터의 그룹이 사전에 정의되지 않음
. 비지도 학습의 대표적인 예
※ [참고용어]
- 집합, 분할, 관계(동치관계,순서관계,함수관계 등), ...
2. 분류기, 분류자 (Classifier), 때론 예측자 (Predictor)
ㅇ 주어진 패턴을 어떤 부류에 할당시키는 장치/규칙/프로그램/알고리즘/모델
- 데이터의 특징을 분석하고, 이를 기반으로 특정 카테고리에 속하는지를 예측함
ㅇ 분류기 사례
- 例 1) 여러 패턴 중 특정 패턴을 검출(Detection)하는 것
- 例 2) 수많은 자료 중 질의에 적합한 것을 검색(Retrieval)하는 것
- 例 3) 개별 패킷별로 중요도 등에 따라 패킷 분류화(Packet Classification)하는 것
3. 분류기의 단계
ㅇ 모델 선택 (model selection) : 우선, 분류기 모델을 선택
ㅇ 학습 (training) : 선택된 모델을 학습 데이터로 훈련
ㅇ 분류 (classification) : 학습된 분류기를 통해, 실제 입력 데이터를 분류
ㅇ 성능 평가 (Performance Evaluation) : 분류기 성능을 측정 및 평가
4. 분류기의 모델
ㅇ 분류기를 표현하는 수학적 모델 (다항식 모델)
- 결정 직선 (1차) : 단순 선형 분류
- 결정 곡선 (2차 이상) : 비선형 분류를 위한 곡선
- 결정 초평면 (4차원 이상) : 다차원 공간에서 데이터를 분할
ㅇ 더욱 복잡한 결정 경계를 갖는 분류 방법론
- SVM (Support Vector Machine, 서포트 벡터 머신) : 커널 선택으로 결정 경계 설정
. 커널 (Kernel): 비선형 데이터를 고차원으로 매핑하여 선형적으로 분리 가능하게 만드는 함수
- 신경망 (Artificial Neutral Network, ANN) : 신경망의 크기
. 퍼셉트론 (선형 분류기)
. 다층 퍼셉트론 (비선형 분류기)
5. 분류기의 알고리즘/방법
ㅇ 질적 분류기 : (질적 데이터에 적용)
- 결정 트리 (Decision Tree)
. 계층적 구조로 데이터 분류
- 스트링 인식기 (String Recognizer)
. 문자열 패턴을 기반으로 데이터 분류
ㅇ 양적 분류기 : (양적 데이터에 적용)
- 베이시언 분류기 (베이지안 분류기) (Bayesian Classifier)
. 입력된 데이터의 범주별 사후 확률을 계산하여, 가장 높은 확률의 범주로 분류
- SVM (Support Vector Machine)
. 분류 오류율의 최소화가 아닌, 여백 최대화에 중점을 둔 분류법
.. 한 쪽 레이블(분류 표지, class label)에 치우치지 않고,
.. 여백을 최대로 하는 결정 경계를 찾는 이진 분류기
.. 여백 (Margin) : 결정 경계와 데이터 포인트 간 최소 거리
. 서포트 벡터 : 결정경계로 부터 가장 가까이에 있는 학습 데이터
- k-최근접 이웃 알고리즘 (k-Nearest Neighbor, kNN, kNN 알고리즘)
. 기계학습 알고리즘에서 가장 간단하고 이해하기 쉬움
. 입력된 데이터가 가장 가까운 k개의 데이터에 따라 분류
- MLP (Multi Layer Perception, 다층 퍼셉트론)
. 인공 신경망의 일종
. 다층 신경망 구조를 사용하여 비선형 데이터 분류
. 학습 가능한 매개변수로 복잡한 관계를 모델링 가능