1. `기존 통계학`과 `베이즈 통계학` 차이점
ㅇ 기존 통계학 : 모집단을 변하지 않은 대상으로 봄
- 모집단에 대해 미리 규정시킨 확률분포 또는 고정된 모수를 출발점으로 삼음
ㅇ 베이즈 통계학 : 모집단을 미리 확정짓지 않음
- 모수를 확률변수 처럼 취급하고,
- 사전 정보(경험,주관적 판단)로부터 새로이 출발점을 삼음
. 즉, 매 표본 마다 나온 데이터를 다시 출발점으로 삼아가며,
. 정보가 증가됨에 따라, 확률이 수정/정제됨
2. 베이즈 갱신 (Bayesian Updating)
ㅇ 앞의 정보를 이용하여 다음 확률 계산을 위한 사전 확률에 활용하게 됨
- 추가된 정보로부터 사전 확률를 새롭게 수정/정제하여 사후 수정 확률을 얻어냄
3. 베이즈 추정의 과정 (Bayesian Inference)
ㅇ 모델화 -> 사전 확률 -> 조건부 확률 -> 관측 결과 입수 -> 사후 확률
- (이후, 베이즈 갱신에 의해, 확률이 수정/정제되는 과정이, 연이어 전개될 수 있음)
ㅇ 즉,
- 모델화해서, 사전 타입(가설)을 분류하고,
- 이로부터 각 가설 마다, 우도를 산출하고,
- 데이터(결과)를 얻은/관측 후에,
- 베이즈 정리 공식에 대입 계산하여, 사후 확률(원인의 확률)을 구함
※ 위 과정 중 처음의 사전 확률(사전 정보)은,
- 수치 데이터로써 확인할 수 있는 객관적 확률을 주로 이용하나,
- 특정 믿음/신념의 정도를 나타내는 양으로써의 주관적 확률도 가능
※ 위 과정 중 조건부 확률은,
- 원인을 알고 있을 때, 그 결과의 확률로써,
- 이는, 결과를 보고 여러 원인/가설별 각각에 대해 계산한 경우의 조건부 확률로,
- 이를 우도(Likelihood)라고도 하며,
. (통상, 설계 대상 시스템에 대한 모델화를 하고, 이로부터 우도를 산출 함)
- 나타난 결과 마다 다른 값을 갖는, 여러 가능한 가설들을 평가할 수 있는 조건부확률 임
※ 위 과정 중 맨끝의 사후확률은,
- 나타난/관측된 결과로부터 원인이 무엇일까라는 역방향 확률 (사전확률의 역 확률)
※ 사실상, 사후 확률을 직접 구하기 어려워,
- 이렇게 사전 확률 및 조건 확률 등으로부터 계산해내는 것임
4. 베이즈 통계의 의의
ㅇ 결과를 관측하고서 원인을 추론(추정)할 수 있게 함
ㅇ 즉, 확률의 수정/정제 과정이 설명됨
- 새로운 경험과 새로운 정보가 새로운 조건을 가져다주어,
- 정보가 증가함에 따라,
- 확률이 수정/정제되는 과정이 설명됨
ㅇ 강점
- 데이터 해석이 유연하고 자연스러움
- 데이터 수가 적어도 추측가능하고, 데이터 수가 많아질수록 정확해짐
- 데이터에 실시간적으로 반응하여(반복 이용), 추정의 자동화가 가능함
ㅇ 단점
- 분석자 재량이 크고, 재현성이 낮음