Classification Clustering, Classifier   분류 군집화 비교, 분류기 (Classifier)

(2021-05-12)

Classification, Categorization, 분류 범주, 분류 영역, 범주 , 분류 , 범주화


1. 분류, 군집화 비교

  ㅇ 분류 (Classification, Categorization)
     - 주어진 데이터를 어떤 부류(분류범주,분류영역,클래스,카테고리)에 속하는지를 판단하는 것

  ㅇ 군집화 (Clustering)
     - 주어진 데이터들을 비슷한 특성별로 여러 그룹으로 분할하면서 큰 단위로 만들어 감

  ※ [참고용어]
     - 집합, 분할, 관계(동치관계,순서관계,함수관계 등), ...


2. 분류기 (Classifier)

  ㅇ 주어진 패턴을 어떤 부류에 할당시키는 장치/규칙/프로그램
     - 例 1) 여러 패턴 중 특정 패턴을 검출(Detection)하는 것
     - 例 2) 수많은 자료 중 질의에 적합한 것을 검색(Retrieval)하는 것
     - 例 3) 개별 패킷별로 중요도 등에 따라 패킷 분류화(Packet Classification)하는 것


3. 분류기의 표현 (모델 선택)

  ㅇ 분류기를 표현하는 수학모델들 : 모델 선택(model selection)의 단계

  ㅇ 다항식에 의한 모델들의 例)
     - 결정 직선 (1차)
     - 결정 곡선 (2차)
     - 결정 곡선 (3차 이상)
     - 결정 초평면 (4차원 이상의 공간을 둘로 분할하는 평면)

  ㅇ 더욱 복잡한 결정 경계를 갖는 분류 방법론들의 例)
     - SVM (Support Vector Machine, 서포트 벡터 머신) : 커널 선택
     - 신경망 (Artificial Neutral Network, ANN) : 신경망의 크기 


4. 분류기의 학습 및 성능 평가

  ㅇ 우선, 분류기 모델 선택을 함
  ㅇ 선택된 모델의 분류기를 학습 시킴
  ㅇ 학습이 끝난 분류기에, 실제 입력 데이터를 분류 시킴
  ㅇ 분류기 성능 평가


5. 분류기 알고리즘/방법의 구분

  ㅇ 질적 분류기
     - 결정 트리
     - 스트링 인식기

  ㅇ 양적 분류기
     - 베이시언 분류기(베이지안 분류기) (Bayesian Classifier)
        . 패턴이 입력되면, 범주별 사후 확률을 계산하고, 그들 중 가장 큰 값의 범주로 분류 
     - SVM (Support Vector Machine)
        . 분류 오류율 최소화가 아닌, 여백 최대화에 중점을 둔 분류법
     - MLP



Copyrightⓒ   차재복 (Cha Jae Bok)