1. 특징 (Feauture, 피처) 이란?
ㅇ 관측값(데이터)들에서 보이는 특성/양상/성질들로써,
- 좋은 특징들이 패턴을 이루게 됨 ☞ 패턴 (Pattern) 참조
ㅇ 특징의 용도
- 주로, `분류`,`식별(인식)`을 하기 위한 수단
2. 특징의 例)
ㅇ 例) (두드러지고, 풍부한 정보를 주나, 간결하게 요약할 수 있는 것)
- 例) 지역 : 월평균 온도 등
- 例) 자동차 : 주행거리, 연식, 브랜드 등
- 例) 사람 : 나이, 성별, 몸무게, 시력 등
. 만일, 키,체중으로 성별을 예측할 때, 키,체중을 특징으로 볼 수 있음
- 例) 문서 : 문서 내용, 글쓴이, 문서 구조, 문서의 길이,
단어 빈도(word frequency,term frequency), 단어의 평균 길이 등
- 例) 안테나 : `전계세기` 나 `전력세기` 등에 의한 공간적 세기 분포 형태 (안테나 패턴)
- 例) 주택 가격 예측 모델 : 면적, 방의 개수, 지리적 위치, 연식 등
- 例) 이미지 : 영상 처리에 사용 가능한 간결한 정보로써, 크게 다음 두가지로 구분
. 구조적 특징 (형태 표현) : (기본) 점,선,경계,코너 등, (고급) 끝점,분기점 등
. 통계적 특징 : (例) 도로 옆 꽃밭의 밝기,컬러 분포에 대해, 히스토그램,분산값을 이용
※ 기계학습에서, 특징(피처,feature)은,
- 모델이 이를통해 학습할 수 있도록, 데이터에서 추출된 개별 속성으로,
- 이는 모델의 입력 수단으로 사용되며, 예측 또는 분류 등의 작업에 중요한 역할을 함
3. 특징의 정량화
ㅇ 특징의 정량화 (수치적 표현)
* (어떤 특징을 수치적으로 변환시켜 추출하는 것)
- 특징 변수 : 대상이 되는 데이터의 성질을 결정 짓는 변수
- 특징 벡터 : 데이터에서 특징으로 간주되는, 1 이상의 특징 변수들로 구성된 벡터
- 특징 량 : 데이터에서 나타나는 변화를, 1 이상의 변수들(특징 벡터)로 나타낸 계산식
ㅇ 특징의 생성
- 특징 추출 (feature extraction)
. 차별적인/구별적인 정보를 갖는 특징들 만을 추려냄
- 특징 선택 (feature selection)
. 중요한 특징 만 선택해서, 전체 학습률과 성능을 증가시키는 것
ㅇ 특징 선택법 (특징을 고르는 방법)
- 통계학적 기반 : 카이제곱 선택법 등
- 상호정보 선택법 등
ㅇ 특징의 척도 : 분별력
- 특징에 따라, 서로달리 구별할 수 있느냐에 대한 척도
- 척도 例) 유사도, 거리 등
4. 특징 추출 (Feature Extraction)
ㅇ 핵심적인 특징 만을 추출
- 주어진 데이터 모두를 사용치 않고, 차별적인/구별적인 정보 만을 갖는 특징들을 추려냄
- 즉, 패턴이 될 만한 구조적 특징을 찾아내고, 이를 패턴 인식의 입력값으로 활용케 함
- 사실상, 각 부류 마다 서로다른 값을 갖게되는 특징일수록 좋은 특징이 됨
- 결국, 계산,메모리,잡음의 감소 등을 부가적으로 얻을 수 있음
ㅇ 특징 추출 과정
- 원시 데이터를 의미 있는 정보로 변환하는 과정으로,
- 모델의 성능을 개선하고,
- 데이터의 중요한 특성이나 패턴을 강조 (데이터의 차원을 줄이는 등 : 차원 축소) 하게 됨
ㅇ 특징 추출 및 전처리는, 서로 밀접하게 연관됨
- 특징 추출은, 전처리 과정을 포함하거나,
- 전처리 후에 데이터에서 중요한 정보나 패턴을 추출하는 단계임
. (전처리 : 원시 데이터를 모델이 학습하기 적합한 형태로 준비하는 단계)