1. 주성분 분석 (Principal Component Analysis)
ㅇ 많은 수의 변량을 적은 수의 변량으로 축약시켜 (차원 축소), 분석하는 대표적인 방법
- 다 변량 자료에서, 분포된 여러 데이터들의 주 성분을 찾아냄으로써,
- 데이터의 개성이 돋보이게 하여, 새로운 시각으로 관찰이 가능케함
2. 주성분 (Principal Component) 이란?
※ 데이터의 분산 값이 최대를 가리키도록 생성된 변수
ㅇ 주성분 `방향`은, 데이터들의 분산(흩어진 정도)이 가장 큰 방향 벡터를 의미
- 2차원 데이터들인 경우 => 2개의 방향 벡터
- 3차원 데이터들인 경우 => 3개의 방향 벡터
ㅇ 주성분의 `분산 크기`는, 정보가 많은 정도를 나타냄
- 이에따라, 주성분의 분산이 큰 것부터, 제1,제2,제3,... 주성분이라고 함
ㅇ 주성분의 `계수 구하기`는, 최적화 문제(분산 최대화)의 해를 구하는 것임
3. 주성분 분석의 특징/목적
ㅇ 변수의 수를 줄이려는 `데이터 축소 또는 차원 축소` 기법의 일종
- 관측 가능한 변량들로부터, 관측 가능하지 않은 (미지의) 공통 요인들을 추출함으로써,
데이터의 복잡성을 줄이려는 방법
ㅇ 데이터 구조의 변환
- 데이터들 간에 높은 상관관계가 있을때, 이러한 상관관계를 제거하여, 분석의 용이성 증대
ㅇ 데이터 내 잠재적 특성 파악
ㅇ 데이터들 간의 관계를 공간적/시각적으로 표현
ㅇ 독립변수와 종속변수 간의 구분이 없이, 단지 변수들 간의 상호의존성을 찾으려고 할 때 유리함
4. 주성분 분석의 방법 상의 핵심
ㅇ 변량들 간에 어떤 관련성이 존재하리라는 것을 알고,
- 이러한 관련성이, 모든 변량들이 지닌 어떤 미지의 공통 요인(성분)들을 공유한 결과라고 봄
ㅇ 따라서, 다 변량들의 선형결합으로 표현되는 몇개의 주성분들을 도출시켜 보는 것
- 이때, 새롭게 만들어지는 주성분/변량/변인(Variate)은, 그 분산이 크도록 함
5. 주성분 분석의 전처리 과정
ㅇ 평균 벡터 (Mean Vecor)
[# \mathbf{m} = \frac{1}{k} \sum^k_{i=1} \mathbf{x}_i #]
ㅇ 공분산 행렬 (Covariance Matrix)
[# C = \frac{1}{k} \sum^k_{i=1} (\mathbf{x}_i - \mathbf{m}) (\mathbf{x}_i - \mathbf{m})^T #]