Classification Clustering, Classifier   분류 군집화 비교, 분류기 (Classifier)

(2022-04-07)

Classification, Categorization, 분류 범주, 분류 영역, 범주 , 분류 , 범주화, 패턴 분류


1. 분류, 군집화 비교

  ㅇ 분류 (Classification, Categorization)
     - 주어진 데이터를 어떤 부류(분류범주,분류영역,클래스,카테고리)에 속하는지를 판단하는 것

  ㅇ 군집화 (Clustering)
     - 주어진 데이터들을 비슷한 특성별로 여러 그룹으로 분할하면서 큰 단위로 만들어 감
     * 군집화 요건 : ① 거리 척도 정의, ② 유사 거리에 있는 샘플들을 군집으로 묶는 알고리즘

  ※ [참고용어]
     - 집합, 분할, 관계(동치관계,순서관계,함수관계 등), ...


2. 분류기 (Classifier)

  ㅇ 주어진 패턴을 어떤 부류에 할당시키는 장치/규칙/프로그램
     - 例 1) 여러 패턴 중 특정 패턴을 검출(Detection)하는 것
     - 例 2) 수많은 자료 중 질의에 적합한 것을 검색(Retrieval)하는 것
     - 例 3) 개별 패킷별로 중요도 등에 따라 패킷 분류화(Packet Classification)하는 것


3. 분류기의 단계 

  ㅇ (표현)  우선, 분류기 모델 선택을 함  (모델 선택 : model selection) (★)
  ㅇ (학습)  선택된 모델의 분류기를 학습 시킴 
  ㅇ (분류)  학습이 끝난 분류기에, 실제 입력 데이터를 분류 시킴
  ㅇ (성능 평가)  분류기 성능 평가


4. 분류기의 표현 모델 기초

  ㅇ 분류기를 표현하는 수학모델들

  ㅇ 다항식에 의한 모델들의 例)
     - 결정 직선 (1차)
     - 결정 곡선 (2차)
     - 결정 곡선 (3차 이상)
     - 결정 초평면 (4차원 이상의 공간을 둘로 분할하는 평면)

  ㅇ 더욱 복잡한 결정 경계를 갖는 분류 방법론들의 例)
     - SVM (Support Vector Machine, 서포트 벡터 머신) : 커널 선택
     - 신경망 (Artificial Neutral Network, ANN) : 신경망의 크기 
        . 퍼셉트론 (선형 분류기), 다층 퍼셉트론 (비선형 분류기) 등   


5. 분류기의 알고리즘/방법 상의 구분

  ㅇ 질적 분류기  :  (질적 데이터에 적용)
     - 결정 트리
     - 스트링 인식기

  ㅇ 양적 분류기  :  (양적 데이터에 적용)
     - 베이시언 분류기(베이지안 분류기) (Bayesian Classifier)
        . 패턴이 입력되면, 범주별 사후 확률을 계산하고, 그들 중 가장 큰 값의 범주로 분류 
     - SVM (Support Vector Machine)
        . 분류 오류율의 최소화가 아닌, 여백 최대화에 중점을 둔 분류법
           .. 한 쪽 레이블(분류 표지,class label)에 치우치지 않고, 
           .. 여백을 최대로 하는 결정 경계를 찾는 이진 분류기
        . 서포트 벡터 : 결정경계로 부터 가장 가까이에 있는 학습데이터
     - kNN 알고리즘 (k - Nearest Neibor) 
        . 기계학습 알고리즘에서 가장 간단하고 이해하기 쉬움
        . 새로 입력된 데이터의 특정 범주 안의 레이블 데이터의 개수에 따라,
          레이블을 판별 ( k의 값에 따라 레이블이 달라짐 )
     - MLP (Multi Layer Perception, 다층 퍼셉트론)



Copyrightⓒ written by 차재복 (Cha Jae Bok)
"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"