1. 카이제곱 확률분포 (Chi-square Probability Distribution)
ㅇ 표준정규분포와 관련이 있음
- 각각 `독립`,`표준정규분포`인 확률변수 (Zi)의 제곱의 합 (X)이 따르는 확률분포
. X = Z12 + Z22 + ... + Zn2
ㅇ 특히, 표본 분산의 확률분포(표본분포)가 카이제곱 분포를 따름
[# S^2 = \frac{1}{n-1} \sum^n_{i=1} \left( X_i - \overline{X} \right)^2
\quad = \frac{1}{n-1} \left( \sum^n_{i=1} X_i^2 - n\overline{X}^2 \right) #]
2. 카이제곱 분포의 활용
ㅇ 분산분석에 주로 이용
- 정규분포를 따르는 여러 데이터들을 한꺼번에 취급 가능 (집단 간 비교 분석 용이)
ㅇ 표본 분산을 통한 모 분산에 대한 추론(검정,추정)
- 표본크기 n일 때, 표본분산(s2)의 표본분포가 (n-1) 자유도를 갖는 카이제곱 분포를 띔
ㅇ 분포 간의 차이
ㅇ 범주형 자료의 검정 및 분석 : 독립성 검정, 적합도 검정 ☞ 카이제곱 검정 참조
3. 카이제곱 분포의 형태(특징)
ㅇ (자유도에 따라 모양 달라짐 : 한편, t 분포도 이와 유사함)
- 자유도 1에서, 확률변수 X = Z2가 카이제곱 분포를 따르게 됨
- 자유도 n으로 일반화하면, X = Z12 + Z22 + ... + Zn2
* 여기서, (Zi : 서로 독립인 표준정규분포를 띄는 표준화 변량)
ㅇ (비 대칭적인 모양)
* 즉, 자유도 n에 따라, 확률분포의 형태가 다르게 결정되는, 비대칭적인 분포
- (오른쪽으로 긴 꼬리를 갖음)
. 자유도 n이 작을수록, 왼쪽으로 치우치는 비대칭 모양
.. 0 주변에 데이터가 집중되는 경향
.. 원점에서 양의 축 방향으로 늘어진(긴 꼬리를 갖는) 곡선을 갖는 형태를 띔
. 자유도 n ≥ 3 부터, 단봉 형태(unimodal shape : 최고점이 1개인 분포)
. 자유도 n이 클수록, 정규분포에 근사되는 대칭 모양
※ 1900년에 영국 통계학자인 칼 피어슨(K.Pearson,1857~1936)에 의해 유도되었음
- 칼 피어슨의 업적 : 표준편차, 상관계수, 카이제곱검정 등 (기술 통계학의 집대성)
4. 카이제곱 분포의 확률변수
ㅇ 표준화 변량 Z 과의 관계 (카이제곱 확률변수 = 표준화 확률변수의 제곱 합)
[# \sum^{n}_{i=1} Z_i^2 = \sum^{n}_{i=1} \left[ \frac{X_i-μ}{σ} \right]^2 = χ^2#]
ㅇ 표본 분산에 대한 모 분산 비율 : {# χ^2 #}
[# χ^2 = n \frac{s^2}{σ^2} \; \sim \; n #]
- χ2의 크기는, 표본분산(s2)이 모집단 분산(σ2) 보다,
. 비슷해지면, 자유도 n 에 가까워짐
. 작아지면, 자유도 n 보다 작아져 분포 왼쪽 꼬리가 0 에 접근
. 커지면, 자유도 n 보다 커져서 분포 오른쪽 꼬리가 늘어짐
5. 카이제곱 분포의 확률적 특성
ㅇ 표기 : X ~ χ2(n)
- t 분포 처럼, 자유도 n 이라는 1개의 모수를 갖음
- 즉, 모수 n(자유도)에 따라 달라지는 분포 곡선군을 갖음
ㅇ 확률밀도함수
[# f(x) = \frac{1}{Γ(n/2)2^{n/2}} \; x^{n/2 -1} \; e^{-x/2} \quad (x>0) #]
ㅇ 기대값 = 자유도
- {# E[χ^2] = n #}
ㅇ 분산 = 2 x 자유도
- {# Var[χ^2] = 2n #}
※ 위에서, 기대값,분산과 자유도와의 관계를 살펴볼 때,
- 자유도가 커지면, 분포 모양이, 오른쪽으로 이동하면서 평평해짐을 알 수 있음
ㅇ 적률
ㅇ 적률생성함수
6. 카이제곱 분포의 성질
ㅇ 카이제곱 분포의 가법성
- Y = X1 + X2 ~ χ2(n1 + n2)
ㅇ 카이제곱 분포와 타 분포와의 관계
- 감마분포에서 α= n/2, β= 2 인 특별한 경우 임
. X ~ Gam(α,β) ↔ Y = 2X/β ~ χ2(2α)