1. 공분산 행렬 (Covariance Matrix), 상관계수 행렬 (Correlation Coefficient Matrix)
ㅇ 2 이상의 변량들에서, 두 변량 값들 간의 공분산 또는 상관계수들을 행렬로 표현한 것
ㅇ 즉, 공분산 행렬은,
- 공분산 요소들로 이루어진 행렬 임
- 확률벡터의 분산 표현 임
. (확률벡터 : 다변량 확률변수를 벡터로 표기한 것)
ㅇ 표기 : {# \textit{Var}\;[\mathbf{x}] #}
- 여기서,
. 공분산 : {# Cov[X,Y] = σ_{XY} = E[(X-μ_X)(Y-μ_Y)] = \sum_x \sum_y (x-μ_X)(y-μ_Y) p(x,y) #}
. 분산 : {# Cov[x_i,x_i] = Var[x_i] = σ_{ii} = σ_{i}^2 #}
. 대칭행렬 임 : {# σ_{ij} = σ_{ji} #}
2. 공분산 행렬의 특징
ㅇ 공분산 행렬은 인 대칭행렬 임
- 例) 3개 변량 있으면, 3 x 3 대칭행렬
ㅇ 2 이상의 변수들이 서로 독립이라면, (각 변수는 서로 영향을 주지 않음)
- 공분산 행렬은 대각행렬이 됨
ㅇ (i,j) 요소 값은, 두 변량 xi, xj 간에 구해진 공분산 값 임
ㅇ (i,i) 요소 값은, 동일 변량 xi 자신의 분산 값인 Var[xi] 임
ㅇ 양의 정부호(positive definite)이어야 함
3. 공분산 행렬의 계산 및 해석 例)
ㅇ x1,x2 간에는, 상관성 없음
- σ12 : (0.000)
ㅇ x1,x3 및 x2,x3 간에는, 같은 정도의 상관성 보임
- σ13 : (0.167)
- σ23 : (0.167)
ㅇ x3은, x1,x2 보다 자체 데이터 분산이 작음
- σ33 : (0.250)
- σ11,σ22 : (0.333)