1. 분산 분석 (Analysis of Variance, ANOVA)
ㅇ 여러 모집단 간에 차이 분석 또는 비교 분석을 위한 통계 분석의 일종
- 차이 분석 => 2 이상의 집단 간 모 평균의 차이 분석
- 비교 분석 => 실험계획법에 의한 요인별 효과 분석
ㅇ 용어 유래
- `모 평균` 간의 차이 여부를 추론하기 위해,
- 데이터의 `표본 분산`을 분석함에 기인함
2. 분산 분석의 분석 개요
ㅇ 서로다른 모집단인가, 아니면 실제로는 단일 모집단인가를 판별해 봄
ㅇ 주로, 2 이상의 집단 간의 평균 차이 검정을 함
- 분산을 기본 단위로 삼아, 집단 간의 차이를 규명함
. 모집단 간의 평균들에 대해 동일성(또는,차이)을 검정 대상으로 하고,
. 표본 분산을 통해, F 분포를 사용하여, 이를 분석하여 봄
ㅇ (가정) 기본적으로, 모집단이 정규분포를 따른다고 가정함
3. 분산 분석의 특징
ㅇ 여러 모집단 간에, 실험 요인별로 효과를 확인하는, 통계적 분석 방법
- 실험 요인이 결과 효과에 영향을 미쳤는지 확인 함
. 실험 결과 데이터가 `우연인가` 또는 `우연이 아닌가` 그 효과 여부를, 판별/검정 함
- 주로, 이들 모 평균 간에 차이가 있는지를 동시에 검정할 필요가 있을 때에 활용
. 실험 집단 간의 표본 평균의 차이에 대한 유의성 검정을,
. 표본들의 분산을 분석하여 수행됨
ㅇ 주로, 질적변수를 비교할 때 적합한, 데이터 분석 방법
- 질적변수인 독립변수 즉,범주형 요인이 다름에 따라,
- 양적변수인 종속변수와의 인과관계 효과에 대한 분석
. 범주화된 독립변수(원인)들의 질적인 다름이,
.. (실험계획법에서는, 요인별 각기 다른 수준의 처리를 하게됨)
. 양적인 종속변수(결과)에 미치는 영향 분석
.. (이때, 결과 간의 평균 차이 유무를 알아보는 분석을 하게됨)
- 例) 성별,혈액형이 다른 집단 간에, 키,몸무게,심박수의 차이에 대해 유의성이 있는지 검정
4. 분산 분석의 검정 방법
ㅇ 실험 집단 간의 변동성과 실험 집단 내의 변동성을 비교하여 검정함
- 총 변동을 집단간변동과 집단내변동으로 분해하여,
- 요인이 특성값에 유의한 영향을 미치는지를 검정함
ㅇ 만일, 실험집단 간의 분산이 실험집단 내의 분산 보다 크다면, 집단 간 차이의 유의성 존재
- 집단 간 분산은, 실험 효과의 차이를 나타냄 (서로다른 모집단 간)
- 집단 내 분산은, 우연성(오차)의 크기를 나타냄 (하나의 모집단 내)
ㅇ 한편, 실험집단 간 분산에 대한 실험집단 내 분산의 비율을 F 통계량이라고 함
- F 통계량 = 서로다른 표본분산 간의 비율
= (집단 간 분산) / (집단 내 분산)
= (군 간 변동) / (군 내 변동)
. 분산 : 편차 제곱 합(변동)을 평균화한 것
ㅇ 만일, F 통계량이,
- 1 근처이면, 집단 간 차이가 없음이고,
- 1 보다 훨씬 크면, 집단 간 차이 있음
ㅇ F 통계량 계산 방법
- 실험집단의 표본 분산으로부터, 공통 분산 추정치를 구함
- 공통 분산 추정치로부터, 전체 표본 분산을 계산함
- 실험집단의 표본 평균 간에 분산을 구함
5. 분산 분석의 종류
ㅇ 독립변수(Factor)의 수에 따라
- 일원 분산분석 (one-factor ANOVA) (one-way analysis of variance)
. 하나의 실험요인 만으로 비교
.. 여기서, 요인(변수)은 하나지만,
.. 요인이 취할 수 있는, 값 종류(수준)는 여럿일 수 있음
. 例) 성별 1개 요인, 남녀 2개 수준에 따른 키 비교
- 이원 분산분석 (two-factor ANOVA)
. 두개의 실험요인으로 비교
. 例) 토양,강수량 2개 요인에 따른 농작물 수확량 비교
- 다원 분산분석 (many-factor ANOVA)
. 셋 이상의 실험요인으로 비교
. 例) 토양,강수량,비료 3개 요인에 따른 농작물 수확량 비교
ㅇ 독립변수의 수준(Level)에 대한 데이터 개수에 따라
- Balanced ANOVA
- Unbalanced ANOVA