특징 , Feature , 피처

(2024-10-05)

특징 추출, 특징 선택


1. 특징 (Feauture, 피처) 이란?

  ㅇ 관측값(데이터)들에서 보이는 특성/양상/성질들로써, 
     - 좋은 특징들이 패턴을 이루게 됨                                     ☞ 패턴 (Pattern) 참조

  ㅇ 특징의 용도
     - 주로, `분류`,`식별(인식)`을 하기 위한 수단


2. 특징의 例)

  ㅇ 例) (두드러지고, 풍부한 정보를 주나, 간결하게 요약할 수 있는 것)
     - 例) 지역 : 월평균 온도 등
     - 例) 자동차 : 주행거리, 연식, 브랜드 등
     - 例) 사람 : 나이, 성별, 몸무게, 시력 등
        . 만일, 키,체중으로 성별을 예측할 때, 키,체중을 특징으로 볼 수 있음
     - 例) 문서 : 문서 내용, 글쓴이, 문서 구조, 문서의 길이,
                  단어 빈도(word frequency,term frequency), 단어의 평균 길이 등
     - 例) 안테나 : `전계세기` 나 `전력세기` 등에 의한 공간적 세기 분포 형태 (안테나 패턴)
     - 例) 주택 가격 예측 모델 : 면적, 방의 개수, 지리적 위치, 연식 등
     - 例) 이미지 : 영상 처리에 사용 가능한 간결한 정보로써, 크게 다음 두가지로 구분
        . 구조적 특징 (형태 표현) : (기본) 점,선,경계,코너 등, (고급) 끝점,분기점 등
        . 통계적 특징 : (例) 도로 옆 꽃밭의 밝기,컬러 분포에 대해, 히스토그램,분산값을 이용

  ※ 기계학습에서, 특징(피처,feature)은,
     - 모델이 이를통해 학습할 수 있도록, 데이터에서 추출된 개별 속성으로,
     - 이는 모델의 입력 수단으로 사용되며, 예측 또는 분류 등의 작업에 중요한 역할을 함


3. 특징의 정량화 

  ㅇ 특징의 정량화 (수치적 표현)
     * (어떤 특징을 수치적으로 변환시켜 추출하는 것)
     - 특징 변수  :  대상이 되는 데이터의 성질을 결정 짓는 변수     
     - 특징 벡터  :  데이터에서 특징으로 간주되는, 1 이상의 특징 변수들로 구성된 벡터
     - 특징 량    :  데이터에서 나타나는 변화를, 1 이상의 변수들(특징 벡터)로 나타낸 계산식

  ㅇ 특징의 생성
     - 특징 추출 (feature extraction)
        . 차별적인/구별적인 정보를 갖는 특징들 만을 추려냄
     - 특징 선택 (feature selection)
        . 중요한 특징 만 선택해서, 전체 학습률과 성능을 증가시키는 것

  ㅇ 특징 선택법 (특징을 고르는 방법)
     - 통계학적 기반 : 카이제곱 선택법 등
     - 상호정보 선택법 등

  ㅇ 특징의 척도  :  분별력
     - 특징에 따라, 서로달리 구별할 수 있느냐에 대한 척도
     - 척도 例) 유사도, 거리4. 특징 추출 (Feature Extraction)

  ㅇ 핵심적인 특징 만을 추출
     - 주어진 데이터 모두를 사용치 않고, 차별적인/구별적인 정보 만을 갖는 특징들을 추려냄
     - 즉, 패턴이 될 만한 구조적 특징을 찾아내고, 이를 패턴 인식의 입력값으로 활용케 함
     - 사실상, 각 부류 마다 서로다른 값을 갖게되는 특징일수록 좋은 특징이 됨
     - 결국, 계산,메모리,잡음의 감소 등을 부가적으로 얻을 수 있음

  ㅇ 특징 추출 과정
     - 원시 데이터를 의미 있는 정보로 변환하는 과정으로,
     - 모델의 성능을 개선하고, 
     - 데이터의 중요한 특성이나 패턴을 강조 (데이터차원을 줄이는 등 : 차원 축소) 하게 됨

  ㅇ 특징 추출 및 전처리는, 서로 밀접하게 연관됨 
     - 특징 추출은, 전처리 과정을 포함하거나,
     - 전처리 후에 데이터에서 중요한 정보패턴을 추출하는 단계임
        . (전처리 : 원시 데이터모델학습하기 적합한 형태로 준비하는 단계)

[패턴인식]1. 특징 (feature)   2. 패턴 (pattern)   3. 패턴 인식   4. 분류,군집화,분류기   5. 베이지안 분류  


"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"
     [정보통신기술용어해설]       편집·운영 (차재복)          편집 후원          편집 이력
  1. Top (분류 펼침)      :     1,591개 분류    6,512건 해설