Regression Analysis   회귀 분석

(2023-12-11)

Regression, 회귀, Regression Equation, 회귀 식, 회귀 계수


1. 회귀 분석 (Regression Analysis)변수들 사이에 `확률함수 관계`를 탐색하는 것
     - 특히, 종속변수독립변수 간의 관계에 대해,
     - 수학적 (확률적) 모형을 구축,평가,사용함으로써,
     - 두 변량 간에, 상관성의 유무,방향,강도를,
     - 회귀계수를 이용하여, 구체적으로 측정 가능
     

  ※ [용어 유래]  회귀(regression)이라는 용어는,
     - 영국 우생학자 칼턴(F. Galton,1822~1891)이,  "Family Likeness in Stature (1886)"
     - 아들의 키가 아버지의 키에서 받은 영향(본래 모습으로 되돌아가는 경향)을 언급하며 처음 사용

  ※ [지향점]  데이터 집단이 갖는 추세 모형 추구
     - 비록 각 점들을 정확히 통과하지는 않지만, 데이터 집단의 경향을 보이는 하나의 곡선을 찾음


2. 회귀분석의 과정

  ㅇ 일련의 변수들 간에 확률적 관계를 갖을 때,
     - 주로, 예측변수/독립변수반응변수/종속변수 간에 확률적 관계를 갖을 때.

  ㅇ 이 관련성을, 랜덤변수가설함수 모형에 입각하여,
     - 딱 정해지는 수학함수 관계식이 아닌, 
     - 랜덤하게 정해지는 확률적 관계식에 의해,
     - 맞춤/곡선적합/근사를 도모함

  ㅇ 이를통해 분석 및 검정하는 것


3. 회귀분석의 용도변수들 간에 가설함수 관계(선형적 관계 등)의 탐색, 규명, 분석, 검정
     - 관심있는 변수의 최적값이 다른 변수가 어떤 값을 취할 때 얻어지는지를 찾음
     - 변수 간의 최선의 관계성, 관계의 강도 등을 분석

  ㅇ 1 이상의 여러 변수들의 변화로부터 다른 한 변수의 변화를 예측
     - 독립변수(회귀변수/설명변수/예측변수)에 따른 종속변수(반응변수)의 변화를 예측
     - 과거의 추세를 기초로하여 미래를 예측 
     - 다만, 구조적인 변화가 있는 경우 예측에 한계를 보임


4. 회귀분석의 구분확률변수 간에 관계성에 따라
     - 선형적   : 선형 회귀분석선형회귀분석, 최소자승법 참조
        .. 확률변수 간에 선형성 결합 정도의 척도 => 상관계수 참조
        .. 만일, 상관계수가 높으면 한 변수 정보로부터 다른 변수예측하는데
           높은 신뢰도를 기대할 수 있음
     - 비선형적 : 비선형 회귀분석

  ㅇ 회귀변수(독립변수)의 수,관계에 따라
     - 단순 회귀, 단순 선형 회귀 (이 변량 회귀, bivariate regression, simple regression)
        . 1개 회귀변수(독립변수)와 1개 반응변수(종속변수) 간의 선형적 관계
           .. 일반식)  {# y = a_0 + a_1x_1 + ε#}

     - 다중 회귀, 다중 선형 회귀  (다 변량 회귀, multiple regression)
        . 다수 회귀변수(독립변수)와 1개 반응변수(종속변수) 간의 선형적 관계
           .. 일반식)  {# y = a_0 + a_1x_1 + a_2x_2 + a_3x_3 + \cdots + a_mx_m + ε#}

     - 곡선 회귀 (다항 회귀 모형, polynomial model)
        . 회귀변수(독립변수)가 1차가 아닌 2차 이상의 고차 함수적인 관계
           .. 일반식)  {# y = a_0 + a_1x + a_2x^2 + a_3x^3 + \cdots + a_mx^m + ε#}


5. 회귀분석에서 통계적 검정의 종류

  ㅇ 회귀 모형 자체에 대한 검정

  ㅇ 각 개별 변수유의성 검정

  ※ 회귀분석을 적절히 하기 위한 기본 (고전적) 가정들
     - 선형성 가정, 오차항의 정규성 가정, 독립변수가 서로 독립이라는 가정, 
       오차항이 일정하다는 등분산성 가정, 독립변수오차항이 상호독립이라는 외생성 가정,
       독립변수가 비 확률변수라는 가정 등


6. 회귀분석의 주요 용어

  ㅇ 회귀 모형 (Regression Model)
     - 변수들 간의 관계를 나타내는 통계모형

  ㅇ 회귀 식 (Regression Equation) : Y = f() + ε
     - 변수들 간의 관계를 최적으로 나타내는 확률적 관계식

  ㅇ 회귀 선 (Regression Line)
     - 변수들간의 확률적 관계식을, 선형(1차)식으로 표현할 때, 기울기를 나타내는 선
        . (1차) 모 회귀선 : {# y_i = β_0 + β_1x_i + ε_i #}
        . (1차) 표본 회귀선 : {# \widehat{y_i} = b_0 + b_1x_i #}

  ㅇ 회귀 계수 (Regression Coefficient) = 회귀선의 기울기
     - 반응변수에 미치는 예측변수의 가중치
        . 예측변수가 한 단위 만큼 변화함에 따라, 반응변수에 미치는 영향력의 크기
        . 회귀식에 나타나는 미지의 계수(모수)
     * 결국, 이 회귀계수들을 추정하는(구하는) 것이, 회귀분석의 목적인 셈

  ㅇ 결정 계수 (Determination Coefficient)
     - 회귀선의 적합성을 판단하는 척도
        . 상관계수로부터, 구해질 수 있음


7. 선형 회귀모형 例)

    
[# \begin{array}{ll} Y & = & f(X_1,X_2,\cdots,X_n) + \epsilon \\ & = & \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_n X_n + \epsilon \end{array} #]
ㅇ 항목 명칭 - f: 변수들간의 확률함수관계 - Y: 반응변수(종속변수), X: 예측변수(독립변수) - n: 예측변수 개수 - ε: 정규분포를 따르는 확률오차 - β: 회귀 모수 또는 회귀 계수 . 원인이 1 이면, 그 결과가 β배 만큼의 비례성을 갖음을 의미 ㅇ 결국, 회귀계수 β가, 데이터들로부터 추정되어야하는 미지의 상수

회귀분석
   1. 회귀분석   2. 선형 회귀분석   3. 결정계수   4. 잔차   5. 최소 자승법  
곡선적합 (근사)
   1. 곡선적합(Curve Fitting)   2. 보간법   3. 선형 보간법   4. 다항식 보간법   5. 스플라인 보간법   6. 최소자승법   7. 회귀분석  


Copyrightⓒ written by 차재복 (Cha Jae Bok)               기술용어해설 후원
"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"