1. 회귀분석 (Regression Analysis)
ㅇ 변수들 사이에 확률적 함수 관계를 탐색하는 것
- 일련의 변수들 간에 확률적 관계를 갖을 때,
. (예측변수/독립변수와 반응변수/종속변수 간에)
- 이 관련성을 랜덤변수의 가설적 함수 모형에 입각하여,
. (수학적 함수 관계식이 아닌 확률적 관계식에 의해 맞춤/곡선적합/근사를 도모)
- 이를통해 분석 및 검정하는 것
※ [용어 유래] 회귀(regression)이라는 용어는,
- 영국 우생학자 칼턴(F. Galton,1822~1891)이, "Family Likeness in Stature (1886)"
- 아들의 키가 아버지의 키에서 받은 영향(본래 모습으로 되돌아가는 경향)을 언급하며 처음 사용
※ [지향점] 데이터 집단이 갖는 추세 모형 추구
- 비록 각 점들을 정확히 통과하지는 않지만, 데이터 집단의 경향을 보이는 하나의 곡선을 찾음
2. 회귀분석의 용도
ㅇ 변수들 간에 가설적 함수 관계(선형적 관계 등)의 탐색, 규명, 분석, 검정
- 관심있는 변수의 최적값이 다른 변수가 어떤 값을 취할 때 얻어지는지를 찾음
- 변수 간의 최선의 관계성, 관계의 강도 등을 분석
ㅇ 1 이상의 여러 변수들의 변화로부터 다른 한 변수의 변화를 예측
- 독립변수(회귀변수/설명변수/예측변수)에 따른 종속변수(반응변수)의 변화를 예측
- 과거의 추세를 기초로하여 미래를 예측
- 다만, 구조적인 변화가 있는 경우 예측에 한계를 보임
3. 회귀분석의 구분
ㅇ 확률변수 간에 관계성에 따라
- 선형적 : 선형 회귀분석 ☞ 최소자승법 참조
.. 확률변수 간에 선형성 결합 정도의 척도 => 상관계수 참조
.. 만일, 상관계수가 높으면 한 변수 정보로부터 다른 변수를 예측하는데
높은 신뢰도를 기대할 수 있음
- 비선형적 : 비선형 회귀분석
ㅇ 회귀변수(독립변수)의 수,관계에 따라
- 단순 회귀분석 (이 변량 회귀, bivariate regression, simple regression)
. 1개 회귀변수(독립변수)와 1개 반응변수(종속변수) 간의 선형적 관계
.. 例) {# y = a_0 + a_1x_1 #}
- 다중 회귀분석 (다 변량 회귀, multiple regression)
. 다수 회귀변수(독립변수)와 1개 반응변수(종속변수) 간의 선형적 관계
.. 例) {# y = a_0 + a_1x_1 + a_3x_3 + \cdots + a_mx_m#}
- 곡선 회귀분석
. 회귀변수(독립변수)가 1차가 아닌 2차 이상의 고차 함수적인 관계
4. 회귀분석에서 통계적 검정의 종류
ㅇ 회귀 모형 자체에 대한 검정
ㅇ 각 개별 변수의 유의성 검정
5. 회귀분석의 주요 용어
ㅇ 회귀 모형 (Regression Model)
- 변수들 간의 관계를 나타내는 통계적 모형
ㅇ 회귀 식 (Regression Equation) : Y = f() + ε
- 변수들 간의 관계를 최적으로 나타내는 확률적 관계식
ㅇ 회귀선 (Regression Line)
- 변수들간의 확률적 관계식을 선형(1차)식으로 할 때 기울기를 나타내는 선
ㅇ 회귀 계수 (Regression Coefficient) = 회귀선의 기울기
- 반응변수에 미치는 예측변수의 가중치
. 예측변수가 한 단위 만큼 변화함에 따라, 반응변수에 미치는 영향력의 크기
. 회귀식에 나타나는 미지의 계수(모수)
* 결국, 이 회귀계수들을 추정하는(구하는) 일이 회귀분석인 셈
ㅇ 결정 계수 (Determination Coefficient)
- 회귀선의 적합성을 판단하는 척도
6. 선형 회귀모형 例)
[# \begin{array}{ll} Y & = & f(X_1,X_2,\cdots,X_n) + \epsilon \\
& = & \beta_0 + \beta_1 X1 + \beta_2 X_2 + \cdots + \beta_n X_n + \epsilon \end{array} #]
ㅇ 항목 명칭
- Y: 반응변수(종속변수), X: 예측변수(독립변수)
- n: 예측변수 개수, ε: 확률오차, f: 변수들간의 확률적 함수관계,
- β: 회귀모수 또는 회귀계수
ㅇ 결국, 회귀계수 β가 데이터들로부터 추정되어야하는 미지의 상수