1. 회귀 분석 (Regression Analysis)
ㅇ 변수들 사이에 `확률적 함수 관계`를 탐색하는 것
- 특히, 종속변수와 독립변수 간의 관계에 대해,
- 수학적 (확률적) 모형을 구축,평가,사용함으로써,
- 두 변량 간에, 상관성의 유무,방향,강도를,
- 회귀계수를 이용하여, 구체적으로 측정 가능
※ [용어 유래] 회귀(regression)이라는 용어는,
- 영국 우생학자 칼턴(F. Galton,1822~1891)이, "Family Likeness in Stature (1886)"
- 아들의 키가 아버지의 키에서 받은 영향(본래 모습으로 되돌아가는 경향)을 언급하며 처음 사용
※ [지향점] 데이터 집단이 갖는 추세 모형 추구
- 비록 각 점들을 정확히 통과하지는 않지만, 데이터 집단의 경향을 보이는 하나의 곡선을 찾음
2. 회귀분석의 과정
ㅇ 일련의 변수들 간에 확률적 관계를 갖을 때,
- 주로, 예측변수/독립변수와 반응변수/종속변수 간에 확률적 관계를 갖을 때.
ㅇ 이 관련성을, 랜덤변수의 가설적 함수 모형에 입각하여,
- 딱 정해지는 수학적 함수 관계식이 아닌,
- 랜덤하게 정해지는 확률적 관계식에 의해,
- 맞춤/곡선적합/근사를 도모함
ㅇ 이를통해 분석 및 검정하는 것
3. 회귀분석의 용도
ㅇ 변수들 간에 가설적 함수 관계(선형적 관계 등)의 탐색, 규명, 분석, 검정
- 관심있는 변수의 최적값이 다른 변수가 어떤 값을 취할 때 얻어지는지를 찾음
- 변수 간의 최선의 관계성, 관계의 강도 등을 분석
ㅇ 1 이상의 여러 변수들의 변화로부터 다른 한 변수의 변화를 예측
- 독립변수(회귀변수/설명변수/예측변수)에 따른 종속변수(반응변수)의 변화를 예측
- 과거의 추세를 기초로하여 미래를 예측
- 다만, 구조적인 변화가 있는 경우 예측에 한계를 보임
ㅇ 쉽게, 실험 데이터에서, 원인과 결과 또는 여러 원인과 결과 사이의 관계를,
- 대수적 표현으로 제시하는 방법
4. 회귀분석의 구분
ㅇ 확률변수 간에 관계성에 따라
- 선형적 : 선형 회귀분석 ☞ 선형회귀분석, 최소자승법 참조
.. 확률변수 간에 선형성 결합 정도의 척도 => 상관계수 참조
.. 만일, 상관계수가 높으면 한 변수 정보로부터 다른 변수를 예측하는데
높은 신뢰도를 기대할 수 있음
- 비선형적 : 비선형 회귀분석
ㅇ 회귀변수(독립변수)의 수,관계에 따라
- 단순 회귀, 단순 선형 회귀 (이 변량 회귀, bivariate regression, simple regression)
. 1개 회귀변수(독립변수)와 1개 반응변수(종속변수) 간의 선형적 관계
.. 일반식) {# y = a_0 + a_1x_1 + ε#}
- 다중 회귀, 다중 선형 회귀 (다 변량 회귀, multiple regression)
. 다수 회귀변수(독립변수)와 1개 반응변수(종속변수) 간의 선형적 관계
.. 일반식) {# y = a_0 + a_1x_1 + a_2x_2 + a_3x_3 + \cdots + a_mx_m + ε#}
- 곡선 회귀, 다항 회귀 (다항 회귀 모형, polynomial model)
. 1차가 아닌 2차 이상의 고차 함수적인 관계
.. 일반식) {# y = a_0 + a_1x + a_2x^2 + a_3x^3 + \cdots + a_mx^m + ε#}
5. 회귀분석에서 통계적 검정의 종류
ㅇ 회귀 모형 자체에 대한 검정
ㅇ 각 개별 변수의 유의성 검정
※ 회귀분석을 적절히 하기 위한 기본 (고전적) 가정들
- 선형성 가정, 오차항의 정규성 가정, 독립변수가 서로 독립이라는 가정,
오차항이 일정하다는 등분산성 가정, 독립변수와 오차항이 상호독립이라는 외생성 가정,
독립변수가 비 확률변수라는 가정 등
6. 회귀분석의 주요 용어
ㅇ 회귀 모형 (Regression Model)
- 변수들 간의 관계를 나타내는 통계적 모형
ㅇ 회귀 식 (Regression Equation) : Y = f() + ε
- 변수들 간의 관계를 최적으로 나타내는 확률적 관계식
ㅇ 회귀 선 (Regression Line)
- 변수들간의 확률적 관계식을, 선형(1차)식으로 표현할 때, 기울기를 나타내는 선
. (1차) 모 회귀선 : {# y_i = β_0 + β_1x_i + ε_i #}
. (1차) 표본 회귀선 : {# \widehat{y_i} = b_0 + b_1x_i #}
ㅇ 회귀 계수 (Regression Coefficient) = 회귀선의 기울기
- 반응변수에 미치는 예측변수의 가중치
. 예측변수가 한 단위 만큼 변화함에 따라, 반응변수에 미치는 영향력의 크기
. 회귀식에 나타나는 미지의 계수(모수)
* 결국, 이 회귀계수들을 추정하는(구하는) 것이, 회귀분석의 목적인 셈
ㅇ 결정 계수 (Determination Coefficient)
- 회귀선의 적합성을 판단하는 척도
. 상관계수로부터, 구해질 수 있음
ㅇ 정규 방정식 (Normal Equation)
- 최소 제곱법을 사용하여, 최적의 회귀 계수를 구할 때, 도출되는 선형방정식 계
. 다항 회귀를 통한 데이터 모델링시, 데이터,모델 간의 오차 제곱합을 최소화하도록,
. 미지수 개수 만큼의 정규 방정식을 세우게 됨
7. 선형 회귀모형 例)
[# \begin{array}{ll} Y & = & f(X_1,X_2,\cdots,X_n) + \epsilon \\
& = & \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_n X_n + \epsilon \end{array} #]
ㅇ 항목 명칭
- f: 변수들간의 확률적 함수관계
- Y: 반응변수(종속변수), X: 예측변수(독립변수)
- n: 예측변수 개수
- ε: 정규분포를 따르는 확률적 오차
- β: 회귀 모수 또는 회귀 계수
. 원인이 1 이면, 그 결과가 β배 만큼의 비례성을 갖음을 의미
ㅇ 결국, 회귀계수 β가, 데이터들로부터 추정되어야하는 미지의 상수