Covariance, Correlation Coefficient   공 분산, 상관 계수

(2022-02-19)

통계적 유사도, 통계 상관 계수


1.  데이터(변량) 간에 통계유사성의 정량화

  ㅇ 단일 변량산포 정도   ☞ 분산 참조

  ㅇ 2 변량 간의 산포 정도   :  공분산, 상관계수(정규화된 공분산)
     - 여기서의 상관계수는, Karl Pearson의 적률 상관계수(피어슨 상관계수)를 말함
     - 다만, 두 변량이 모두 연속적, 선형 관계일 때 만 그 관계를 제대로 보여줌 

  ㅇ 2 이상의 다 변량 간의 상관관계들
     - 2 이상의 다 변량 간의 상관 계수 : 다중 상관계수, 편 상관계수, 정준 상관계수 등
     - 2 이상의 질적 변수들 간의 상관 계수 : 파이 계수, 분할 계수, 순위 상관계수 등
     - 2 이상의 다 변량 간에 공분산의 행렬 표현 ☞ 확률 벡터, 공분산 행렬 참조

  ㅇ 변량 간의 산포/상관의 일반화    ☞ 상관성(Correlation) 참조


2. 공 분산 (Covariance) 

  ㅇ 두 변량(확률변수) 간에 상관성/의존성/유사성의 `방향` 및 `정도`에 대한 척도
     - 두 변량(Variate) 간에 상관관계(Correlation)의 측도(Measure)
 
  ㅇ 공 분산의 표현식
     - 두 변량이 상관적으로 변화되는 척도
        . 두 변량이 각각의 평균으로부터 변화하는 방향 및 크기를 결합시킨 기대값
              
     - 보통 Cov(X,Y),σXY로 표시함
           

  ㅇ 공 분산의 성질
     - 교환법칙 성립
        . 즉, 
     - 동일 변량에 대한 공분산은 분산이 됨
        . 즉, 
     - 기타성질
        

  ㅇ 다 변량 확률변수의 공 분산  ☞ 공분산 행렬, 상관계수 행렬 참조
     - 2 변량 이상의 변량이 있는 경우에,
     - 모든 변량 쌍들 간의 공분산을 행렬로 표현한 것


3. 상관 계수 (Correlation Coefficient) = 정규화된 공분산

  ㅇ 공분산이 각 변량단위에 의존하게되어 변동 크기량이 모호하므로,
     공분산에다가 각 변량표준편차를 나누어주어 `정규화`시킴
       
      - 여기서, Var() : 분산, σX : 표준편차, Cov(X,Y) : 공분산

  ㅇ 특징
     - 단위가 무차원(dimensionless)임
     - 값 범위 :  -1 ≤ ρ ≤ 1

  ※ (명칭) 이같은 통계적 상관계수를, 제안자 이름을 따서, 
     - `피어슨의 적률 상관계수` 또는 `피어슨 상관 계수` 라고도 함


4. 공 분산 또는 상관 계수 값에 따른 의미

  ㅇ 양의 상관 : `강한 양의 상관관계`  (positively correlated)
     - 두 변량이 같은 방향으로 움직임 (X가 커지면 Y도 덩달아 커짐)
        . 만일, 두 변량이 크기도 같고, 같은 방향이면, ρ = 1 이 됨

  ㅇ 영의 상관 : `상관관계 없음`       (uncorrelated)
     - 두 변량상호 독립 (상관관계가 전혀 없음)
        . 만일, 두 변량이 상관 없으면, ρ = 0 이 됨
           .. 즉, 통계적 독립인 경우 임 : 

  ㅇ 음의 상관 : `강한 음의 상관관계`  (negatively correlated)
     - 두 변량이 반대방향으로 움직이는 것 (X가 커지면 Y는 작아짐)
        . 만일, 두 변량이 크기는 같으나, 다른 방향이면, ρ = -1 이 됨

     



Copyrightⓒ written by 차재복 (Cha Jae Bok)
"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"