1. 공분산 행렬 (Covariance Matrix), 상관계수 행렬 (Correlation Coefficient Matrix)
ㅇ 2 이상의 변량들에서, 다수의 두 변량 값들 간의 공분산 또는 상관계수들을 행렬로 표현한 것
ㅇ 확률벡터의 분산 표현 => 공분산 행렬 : Var [x]
- 여기서,
. 대칭 행렬 : {# σ_{ij} = σ_{ji} #}
. 공분산 : {# Cov[X,Y] = σ_{XY} = E[(X-μ_X)(Y-μ_Y)] = \sum_x \sum_y (x-μ_X)(y-μ_Y) p(x,y) #}
. 분산 : {# Cov[x_i,x_i] = Var[x_i] = σ_{ii} = σ_{i}^2 #}
2. 공분산 행렬 특징
ㅇ 공분산 행렬은 인 대칭행렬 임
- 例) 3개 변량 있으면, 3 x 3 대칭행렬
ㅇ (i,j) 요소 값은, 두 변량 xi, xj 간에 구해진 공분산 값 임
ㅇ (i,i) 요소 값은, 동일 변량 xi 자신의 분산 값인 Var[xi] 임
3. 공분산 행렬의 계산 및 해석 例)
ㅇ x1,x2 간에는, 상관성 없음
- σ12 : (0.000)
ㅇ x1,x3 및 x2,x3 간에는, 같은 정도의 상관성 보임
- σ13 : (0.167)
- σ23 : (0.167)
ㅇ x3은, x1,x2 보다 자체 데이터 분산이 작음
- σ33 : (0.250)
- σ11,σ22 : (0.333)
1.
2.
3.
1.
2.
3.
4.