1. 활성화 함수 (Activation Function)
ㅇ 신경망에서 사용되는 비선형 함수
- 입력 데이터에 대해,
- 가중치를 적용하고, 이 가중치의 합을 계산한 후,
- 활성화 함수를 통해, 비선형성을 추가하여,
- 최종 출력을 결정토록 함
ㅇ 즉, 비선형성을 도입하기 위해, 활성화 함수가 사용됨
- 복잡한 패턴 학습
- 신호의 강도 조절
- 출력값의 범위 정규화 등이 이를통해 가능
2. 활성화 함수의 주요 종류
ㅇ 시그모이드 함수 (Sigmoid Function)
[# σ(x) = \frac{1}{1+e^{-x}} #]
- 출력 범위: (0, 1)
. 값이 0 ~ 1 사이로 압축
- 장점 : 출력이 확률처럼 해석 가능
- 단점 : 큰 입력값에서 기울기 소실(Vanishing Gradient) 발생
. 또한, 출력값이 0 또는 1에 가까울 때 학습이 느려짐
- 적용 : 과거, 이진 분류 문제에 많이 사용됨
ㅇ 소프트맥스 함수 (Softmax Function)
[# \text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_j e^{z_j}} #]
- 출력 범위 : (0, 1)
. 각 클래스의 확률값을 출력
- 특징 : 모든 출력의 합이 1이 되도록 정규화
. 전체 출력이 확률 분포 (서로 연관됨)
- 적용 : 다중 클래스 분류의 출력층에서 주로 사용
ㅇ 하이퍼볼릭 탄젠트 함수 (tanh)
[# \tanh (x) = \frac{e^x-e^{-x}}{e^x+e^{-x}} #]
- 출력 범위 : (–1, 1)
. 시그모이드보다 출력 중심이 0에 가까워 학습이 더 빠르고 효율적
- 단점 : 여전히 기울기 소실 문제 존재
- 적용 : 과거 은닉층에서 자주 사용됨
ㅇ ReLU (Rectified Linear Unit)
[# ReLU(x) = max(0,x) #]
- 입력값이 0 보다 작으면 무시, 0 보다 크면 입력값 그대로
- 기울기 소실(Vanishing Gradient) 문제 완화
- 적용 : 대부분의 은닉층에서 기본 활성화 함수로 사용됨