1. 통계적 추론 방식의 구분
ㅇ 추정 (Estimation)
- 전체 모집단의 특정 모수에 대해, 표본으로부터 추정하는 것
. 직접 관측할 수 없는 값들에 대해,
. 관측가능한 값/변수들을 통해 추정하는 것
ㅇ 검정 (Testing)
- 주장의 옳고 그름을, 표본으로부터 확률적으로 판단하는 것
. 경험,지식을 근거로 설정된 모집단 특성(확률 모형)에 대해, (귀무가설)
. 대립적인 (연구자의) 주장(가설)을 내세워, (대립가설)
. 반증을 통해 진위 여부를 판단코자,
. 모집단에서 추출된 표본 통계량(검정 통계량)으로 가리는 것
2. 가설 검정 (Hypothesis Test) 이란?
ㅇ 통상, 과학자들은, 현실 세계에서 나타나는 현상에 대해,
- 가장 적합한 통계적 모형을 구축하고,
- 그 현상에 관한 가설을 만들고,
- 이에 맞추어, 자료를 수집해서,
- 그 가설 및 모형을 검정하곤 함
ㅇ 이때, 통계적 가설검정 (Statistical Hypothesis Test) 이란?
- 증명된 바 없는 주장/가설을 귀무가설이라는 틀 속에 넣고, (귀무가설을 반증코자)
- 모집단에서 추출된 표본 통계량(검정 통계량)으로, (데이터에 기반을 둔 검증 방식)
- 우연적으로 발생되는 통계적 오차(표본 오차)를 반영하면서, (랜덤 표본 오차)
- 귀무가설의 진위/타당성을 판단/증명/검정하며, (귀무가설의 기각 여부를 통해)
- 대립가설을 채택하려는, (귀무가설을 반증하는)
- 통계적 추론 방식 임.
※ 통계적 가설검정의 이론적 정립(기여)
- 로널드 피셔(Ronald A. Fisher,1890~1962)
. 유의수준, p값, 귀무가설 등 가설검정의 기초 개념 확립
. 단일 가설(귀무가설)만을 검토하며, 이를 기각할지 말지를 결정
- 예르지 네이만 (1984~1981), 이건 피어슨 (1895~1980, 칼 피어슨의 아들)
. 현대 추측 통계학(가설검정,구간추정 등)의 골격을 만듬(체계화)
. 대립가설의 명시적 도입,기각역,가설검정오류,검정력 등을 제안하며 체계적으로 정리하였음
3. 가설의 종류
ㅇ 귀무가설 (Null Hypothesis) : H。
- (진실일 가능성이 적어 처음부터 버릴 것이 예상되는 가설)
. 검정의 대상으로 삼는 가설
.. 일단, 귀무가설이 옳은 것이라고 가정하고 시작함
* 기각(Rejection)은, 귀무가설에 대해서 만 쓰여지는 용어임
* 귀무가설의 `채택`은 안쓰는 용어이며, 어쩔 수 없이 `수용`한다는 표현을 씀
. 즉, 현재의 실험 관측 데이터 상으로는 귀무가설을 잠정 수용(판정 보류)할 뿐이라는 의미임
ㅇ 대립가설 (Alternative Hypothesis) : H₁
- (새로운 주장 또는 실제로 입증하고픈 가설)
. 귀무가설에 대립되는 반대의 가설
4. 검정의 종류(유형)
※ ☞ 검정 유형 참조
- (검정 성격에 따른 검정 유형)
. 유의성 검정, 정규성 검정, 적합도 검정, 독립성 검정, 동일성 검정 등
- (차이가 있는지 여부에 따른 검정 유형)
. 단일 모수의 검정 (one sample test), 두 집단 간 모수 차이의 검정 (two sample test)
- (검정통계량에 따른 검정 유형)
. 표본 평균의 검정, 표본 비율의 검정, 표본 분산의 검정, 무 상관 검정, 등 분산 검정 등
5. 가설 검정의 일반적인 절차 (예시)
※ 가설 검정의 개론적 절차
- 기존의 가설(귀무가설) 하에, 확률 분포를 도출하고,
- 확률 표본으로부터 통계량(검정통계량)을 구하고,
- 검정통계량이, 귀무가설에서 일어나기 어려운 극단적인 값을 나타날 때,
- 귀무가설이 타당하지 않다고 판단하여, 대립가설을 채택하려 함
ㅇ ① 두 대립적인 가설의 설정
- 귀무가설(H0) : 부정하고 싶은 가설
- 대립가설(H1) : 입증하고 싶은 가설
ㅇ ② 확률분포 및 유의수준 결정
- 확률분포 : 어떤 확률분포로 검정을 시행할 것인지를 결정
- 유의수준 : 귀무가설의 정당성이 `의심스러운 (희박한)` 확률 수준
ㅇ ③ 검정통계량 설정
- 귀무가설을 검정할, 적절한 검정통계량을 찾는 것
ㅇ ④ 각 분포표를 이용하여 임계치,기각역 설정
- (Z 분포,t 분포,카이제곱 분포,F 분포 등)
ㅇ ⑤ 검정통계량 계산
- 귀무가설이 옳다는 가정 하에, 검정통계량이 관측되는 확률을 계산
- (t값 : t검정, F값 : 분산분석, χ²값 : χ²검정 등)
ㅇ ⑥ 검정통계량 결과 분석
- 귀무가설이 옳다는 가정하에, 검정통계량의 확률분포를 생각하고,
- 검정통계량이 확률분포의 어느 위치에 있는지에 따라 해석을 함
- 이에따라, 귀무가설,대립가설 중 하나를 채택하고, 나머지를 기각시키도록 함
- 주로, 귀무가설에 대한 기각 여부를 결정하는 단계
ㅇ ⑦ 검정 결과에 대한 결론
6. 검정의 판단을 위한 량(量)
ㅇ 검정 통계량 (Test Statistic)
- 귀무가설의 진위 여부를 검정코자, 표본으로부터 얻는 적절한 통계량
* 검정 유형 마다 이용하는 통계량이 다름
. 例) 모 평균의 검정을 위한 표본평균, 모 분산의 검정을 위한 표본분산 등
ㅇ 검정 통계량은 확률적 성격을 갖음
- 표본들로부터 만든 확률변수가 검정 통계량으로써,
. 검정 통계량으로부터 모수를 검정할 때,
. 검정통계량이 따르는 확률분포를 이용하여,
. 결국, 표본의 실현값이 일어날 확률을 계산하게 됨
- 한편, 검정 통계량의 실현 가능한 값의 분포를, 표본 분포(표본의 확률분포)라 하고,
. 이는, 표본 공간을 형성함
7. 검정에서, 귀무가설의 기각 여부의 결정
ㅇ 검정통계량에 의한 가설검정 ☞ 점 추정 참조
- 표본 결과(검정통계량)가 기각영역에 있을 경우, 귀무가설 기각
ㅇ 신뢰구간에 의한 가설검정 ☞ 구간 추정 참조
- 신뢰구간 밖에 있을 경우, 귀무가설 기각
ㅇ p 값에 의한 가설검정
- p 값이 유의수준 α 보다 작을 경우, 귀무가설 기각
. p 값 : 관찰된 데이터가 귀무 가설 하에서 발생할 확률을 나타냄
.. 만일, p 값이 유의 수준 α 보다 작으면 귀무 가설을 기각하게 됨
8. 검정의 판단 기준
※ ☞ 검정 판단 기준 참조
- 검정 통계량의 위치에 의거함
- 검정 판단을 위한 기준 값 및 범위 : (기준 값) 임계값, (기각 범위) 기각역/기각영역 등
- 검정 판단의 기준이 한쪽 만 또는 양쪽인 경우 : 단측 검정, 양측 검정
9. 검정의 오류 유형 및 오류 관리 범위 (최적의 검정 이란?)
ㅇ 확률/통계적인 판단을 하는 가설검정에는, 당연히 오류를 범할 위험이 있게 됨
- 가설검정 오류의 종류 ☞ 1종 오류, 2종 오류 참조
ㅇ 따라서, 오류를 정해진 관리 수준(범위) 안에 두어야 함
- 가설검정 오류의 관리 ☞ 유의수준, 검정력 참조
ㅇ 최적의 검정 이란?
- 주어진 1종 오류의 일정 기준 하에서, 2종 오류를 최소화하는 검정을 말함
10. 검정의 용어 (주로, 대립되는 용어 또는 쌍을 이루는 용어)
ㅇ 귀무 가설, 대립 가설
- 귀무가설에 대립되는 반대의 가설이 대립 가설임
ㅇ 기각, 수용
ㅇ 1종 오류, 2종 오류
ㅇ 유의수준, p값
ㅇ 검정통계량, 기각역
- 검정통계량이 기각역에 포함 여부에 따라, 귀무가설의 수용(Accept),기각(Reject) 여부를 결정함
ㅇ 검정력, 유의수준(위험률)
- 서로 간에 상충 관계임