1. 강화 학습 (Reinforcement Learning, 보상 학습)
ㅇ 환경과 상호작용하면서 보상을 최대화하는 방향으로 행동을 학습하는 방법
- 시행착오를 거치며 스스로 최적의 행동 전략(정책)을 만들어냅
2. 강화 학습의 구성 요소
ㅇ 환경 (Environment, E) : 에이전트가 상호작용하는 대상 세계
ㅇ 상태 (State, S) : 현재 환경의 상황을 나타내는 정보
ㅇ 행동 (Action, A) : 에이전트가 선택할 수 있는 동작
ㅇ 전이 (Transition, P) : 상태와 행동에 따라 다음 상태로 확률적으로 전이
ㅇ 보상 (Reward, R) : 행동 결과로 환경이 주는 값 (정수 or 실수)
ㅇ 정책 (Policy, π) : 상태에 따라 어떤 행동을 선택할지 결정하는 전략
ㅇ 가치함수 (Value Function) : 특정 상태 또는 상태 - 행동 쌍의 장기적인 보상 기대값
※ 일반적으로, 환경은 다음과 같은 튜플로 표현됨 : E = (S, A, P, R)
2. 강화 학습의 특징 : 상호작용 기반 학습
ㅇ 환경과의 계속된 상호작용 (선택과 피드백의 반복)
- 선택 → 피드백 → 개선의 반복을 통해 학습 수행
ㅇ 지도 학습과는 달리,
- 정답이 주어지지 않고, 보상 만을 통해 간접적으로 학습
ㅇ 시행착오(trial and error)에 의함
- 시행착오를 통해 어떤 행동이 장기적으로 유리한지 학습
ㅇ 목표 : 보상의 총합(누적 보상)이 최대가 되도록 하는 의사결정 시스템을 구축
- 결국, 알아서, 스스로의 행동 알고리즘을 만들어낼 수 있도록 함
ㅇ 딥러닝과의 결합이 가능함
- 보다 복잡한 문제에 대한 정교한 의사결정이 가능
3. 강화 학습 과정 : (반복 루프)
ㅇ 현재 상태 S에서 행동 A를 선택 (Policy 기반)
ㅇ 행동 A를 환경에 적용하여, 보상 R과 새로운 상태 S'를 받음
ㅇ 이 경험을 기반으로 정책(π)을 개선
ㅇ 위 과정을 반복하여 점점 더 나은 정책을 학습
4. 강화 학습의 문제 유형
ㅇ 상태에 따른 최적 행동을 찾는 문제
- 행동 - 보상의 짝(매칭)이 아니라, 상태에 따른 최적 행동을 찾는 문제
ㅇ 순차적 의사결정 문제 : 연이은 행동을 잘 선택해야 하는 문제임
- 이전의 행동이 미래의 보상에 영향을 미치므로, 단기 보상이 아닌 장기적인 전략이 중요
5. 강화 학습 알고리즘 例
ㅇ 가치 기반 (Value-based)
- Q-learning 등
ㅇ 정책 기반 (Policy-based)
- 정책 경사(Policy Gradient) 등
ㅇ 모델 기반 (Model-based)
- 환경 모델을 추정하여 계획 수립 (Dyna-Q, World Models 등)