PCA Principal Component Analysis 주성분 분석

(2024-08-18)

▷ Top ▷ 기초과학 ▷ 수학 ▷ 확률/통계 ▷ 통계학 ▷ 통계적 분석 ▷ 기타 분석

1. 주성분 분석 (Principal Component Analysis)

  ㅇ 많은 수의 변량을 적은 수의 변량으로 축약시켜 (차원 축소), 분석하는 대표적인 방법
     - 다 변량 자료에서, 분포된 여러 데이터들의 주 성분을 찾아냄으로써,
     - 데이터의 개성이 돋보이게 하여, 새로운 시각으로 관찰이 가능케함 


2. 주성분 (Principal Component) 이란?

  ※ 데이터의 분산 값이 최대를 가리키도록 생성된 변수

  ㅇ 주성분 `방향`은, 데이터들의 분산(흩어진 정도)이 가장 큰 방향 벡터를 의미
     - 2차원 데이터들인 경우 => 2개의 방향 벡터
     - 3차원 데이터들인 경우 => 3개의 방향 벡터
  ㅇ 주성분의 `분산 크기`는, 정보가 많은 정도를 나타냄
     - 이에따라, 주성분의 분산이 큰 것부터, 제1,제2,제3,... 주성분이라고 함
  ㅇ 주성분의 `계수 구하기`는, 최적화 문제(분산 최대화)의 해를 구하는 것임


3. 주성분 분석의 특징/목적

  ㅇ 변수의 수를 줄이려는 `데이터 축소 또는 차원 축소` 기법의 일종
     - 관측 가능한 변량들로부터, 관측 가능하지 않은 (미지의) 공통 요인들을 추출함으로써,
       데이터의 복잡성을 줄이려는 방법

  ㅇ 데이터 구조의 변환
     - 데이터들 간에 높은 상관관계가 있을때, 이러한 상관관계를 제거하여, 분석의 용이성 증대

  ㅇ 데이터 내 잠재적 특성 파악

  ㅇ 데이터들 간의 관계를 공간적/시각적으로 표현

  ㅇ 독립변수와 종속변수 간의 구분이 없이, 단지 변수들 간의 상호의존성을 찾으려고 할 때 유리함


4. 주성분 분석의 방법 상의 핵심

  ㅇ 변량들 간에 어떤 관련성이 존재하리라는 것을 알고, 
     - 이러한 관련성이, 모든 변량들이 지닌 어떤 미지의 공통 요인(성분)들을 공유한 결과라고 봄

  ㅇ 따라서, 다 변량들의 선형결합으로 표현되는 몇개의 주성분들을 도출시켜 보는 것
     - 이때, 새롭게 만들어지는 주성분/변량/변인(Variate)은, 그 분산이 크도록 함


5. 주성분 분석의 전처리 과정

  ㅇ 평균 벡터 (Mean Vecor)
     [# \mathbf{m} = \frac{1}{k} \sum^k_{i=1} \mathbf{x}_i #]

  ㅇ 공분산 행렬 (Covariance Matrix)
     [# C = \frac{1}{k} \sum^k_{i=1} (\mathbf{x}_i - \mathbf{m}) (\mathbf{x}_i - \mathbf{m})^T #]

▷기타 분석

1. 수요예측 2. 주성분 분석 3. 판별 분석
용어해설 종합 (단일 페이지 형태)

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"

[정보통신기술용어해설]