Reinforcement Learning   강화 학습

(2025-06-17)

1. 강화 학습 (Reinforcement Learning, 보상 학습)

  ㅇ 환경과 상호작용하면서 보상을 최대화하는 방향으로 행동을 학습하는 방법
     - 시행착오를 거치며 스스로 최적의 행동 전략(정책)을 만들어냅


2. 강화 학습의 구성 요소

  ㅇ 환경 (Environment, E)  :  에이전트가 상호작용하는 대상 세계
  ㅇ 상태 (State, S)  :  현재 환경의 상황을 나타내는 정보
  ㅇ 행동 (Action, A)  :  에이전트가 선택할 수 있는 동작
  ㅇ 전이 (Transition, P)  :  상태와 행동에 따라 다음 상태확률적으로 전이
  ㅇ 보상 (Reward, R)  :  행동 결과로 환경이 주는 값 (정수 or 실수)
  ㅇ 정책 (Policy, π)  :  상태에 따라 어떤 행동을 선택할지 결정하는 전략
  ㅇ 가치함수 (Value Function)  :  특정 상태 또는 상태 - 행동 쌍의 장기적인 보상 기대값

  ※ 일반적으로, 환경은 다음과 같은 튜플로 표현됨  :  E = (S, A, P, R) 


2. 강화 학습의 특징  :  상호작용 기반 학습

  ㅇ 환경과의 계속된 상호작용 (선택과 피드백의 반복)
     - 선택 → 피드백 → 개선의 반복을 통해 학습 수행
  ㅇ 지도 학습과는 달리, 
     - 정답이 주어지지 않고, 보상 만을 통해 간접적으로 학습
  ㅇ 시행착오(trial and error)에 의함
     - 시행착오를 통해 어떤 행동이 장기적으로 유리한지 학습
  ㅇ 목표  :  보상의 총합(누적 보상)이 최대가 되도록 하는 의사결정 시스템을 구축
     - 결국, 알아서, 스스로의 행동 알고리즘을 만들어낼 수 있도록 함
  ㅇ 딥러닝과의 결합이 가능함
     - 보다 복잡한 문제에 대한 정교한 의사결정이 가능


3. 강화 학습 과정  :  (반복 루프)

  ㅇ 현재 상태 S에서 행동 A를 선택 (Policy 기반)
  ㅇ 행동 A를 환경에 적용하여, 보상 R과 새로운 상태 S'를 받음
  ㅇ 이 경험을 기반으로 정책(π)을 개선
  ㅇ 위 과정을 반복하여 점점 더 나은 정책학습


4. 강화 학습의 문제 유형상태에 따른 최적 행동을 찾는 문제
     - 행동 - 보상의 짝(매칭)이 아니라, 상태에 따른 최적 행동을 찾는 문제
  ㅇ 순차적 의사결정 문제  :  연이은 행동을 잘 선택해야 하는 문제임
     - 이전의 행동이 미래의 보상에 영향을 미치므로, 단기 보상이 아닌 장기적인 전략이 중요 


5. 강화 학습 알고리즘

  ㅇ 가치 기반 (Value-based)
     - Q-learning 등
  ㅇ 정책 기반 (Policy-based)
     - 정책 경사(Policy Gradient) 등
  ㅇ 모델 기반 (Model-based)
     - 환경 모델추정하여 계획 수립 (Dyna-Q, World Models 등)

학습법
1. 학습법  
용어해설 종합 (단일 페이지 형태)

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"
     [정보통신기술용어해설]          편집 이력          소액 후원