1. 회귀분석 용어
ㅇ 회귀 모형 (Regression Model)
- 변수들 간의 관계를 나타내는 통계적 모형
ㅇ 회귀 식 (Regression Equation) : Y = f() + ε
- 변수들 간의 관계를 최적으로 나타내는 확률적 관계식
ㅇ 회귀 선 (Regression Line)
- 변수들간의 확률적 관계식을, 선형(1차)식으로 표현할 때, 기울기를 나타내는 선
. (1차) 모 회귀선 : {# y_i = β_0 + β_1x_i + ε_i #}
. (1차) 표본 회귀선 : {# \widehat{y_i} = b_0 + b_1x_i #}
ㅇ 회귀 계수 (Regression Coefficient) = 회귀선의 기울기
- 반응변수에 미치는 예측변수의 가중치
. 예측변수가 한 단위 만큼 변화함에 따라, 반응변수에 미치는 영향력의 크기
. 회귀식에 나타나는 미지의 계수(모수)
* 결국, 이 회귀계수들을 추정하는(구하는) 것이, 회귀분석의 목적인 셈
ㅇ 결정 계수 (Determination Coefficient)
- 회귀선의 적합성을 판단하는 척도
. 상관계수로부터, 구해질 수 있음
ㅇ 정규 방정식 (Normal Equation)
- 최소 제곱법을 사용하여, 최적의 회귀 계수를 구할 때, 도출되는 선형방정식 계
. 다항 회귀를 통한 데이터 모델링시, 데이터,모델 간의 오차 제곱합을 최소화하도록,
. 미지수 개수 만큼의 정규 방정식을 세우게 됨
ㅇ 로지스틱 회귀 (Logistic Regression)
- 어떤 사건이 발생할 확률을 예측하는 데 사용되는 통계 기법
- 특히, 예/아니오와 같이 2가지 범주로 나눌 수 있는 이진 분류 문제에 주로 활용하는 선형 모델
. 입력 데이터를 바탕으로 특정 클래스에 속할 확률을 예측
. 그 예측된 확률을 기준으로 분류를 수행
- 기계학습 과정에서, 분류에 해당하는 손실 함수를 최소화하면서, 모델을 최적화함