Reinforcement Learning   강화 학습

(2025-09-13)

보상 함수, 시행 착오


1. 강화 학습 (Reinforcement Learning, 보상 학습)

  ㅇ 환경과 상호작용하면서, 보상을 최대화하는 방향으로, 행동을 학습하는 방법
     - 즉, 시행착오를 거치며, 스스로 최적의 행동 전략(정책)을 만들어냄


2. 강화 학습의 특징  :  상호작용 기반 학습

  ㅇ 보상에 의한 간접 (지연) 학습법임
     - 미리 정답이 주어지는 지도 학습과는 달리, 보상 만을 통해 간접적으로 학습

  ㅇ 환경과의 계속된 상호작용이 있게됨 (선택과 피드백의 반복)
     - "선택 → 피드백 → 개선"의 반복을 통해 학습 수행

  ㅇ 시행착오 (trial and error) 학습법에 의함
     - 시행착오를 통해 어떤 행동이 장기적으로 유리한지 학습
        . 가능한 여러 해(解)를 시도해 보고, 
           .. 그 결과(성공/실패)에 따라, 다음 시도를 조정해 나가는 탐색적 방법
        . 즉, “직접 해보며 배우는” 경험 기반의 학습 과정

  ㅇ 보상의 총합(누적 보상)이 최대가 되도록 함
     - 사후적으로, 보상이 낮았던 행동들은 덜하고, 높았던 것들은 더하면서,
        . 보상의 총합을 최대화 하도록, 조금씩 행동을 수정해나감
     - 결국, 알아서, 스스로의 행동 알고리즘(의사결정 시스템)을 만들어 내도록 함

  ㅇ 딥러닝과의 결합이 가능함
     - 보다 복잡한 문제에 대한 정교한 의사결정이 가능


3. 강화 학습 문제의 핵심

  ㅇ 순차적임  :  순차적 의사결정 문제임  
     - 연이은 행동 마다 전략적으로 잘 선택해야 함
        . 각 상황에 따라 취한 행동이, 다음 상황에 영향을 줌
           .. 例) 운전,게임,주식투자 등
     - 이는 전통적인 통계학습(例: 지도학습)과의 큰 차이점임

  ㅇ 최적 행동 탐색  :  상태에 따른 최적 행동을 찾는 문제임
     - 미리 정해진 행동 - 보상의 짝(1:1 매칭)이 아니라, 
        . 매번 주어지는 상태에 따라 최적 행동을 찾는 문제
     - 즉, "상태 → 행동"으로 매핑되는 정책(Policy)을 학습하는 것임

  ㅇ 단일값 보상 구조  :  단일 스칼라 형태의 보상 값을 기반으로 학습함
     - 각 행동의 결과로 주어지는 보상 값은 하나의 스칼라 값(수치)로 표현됨
     - 다만, 동일 문제에서도, 다양한 방법으로 보상 설정이 가능하므로, 
        . 학습 목적(장기 누적 보상 극대화)을 잘 반영하도록, 보상 점수를 신중히 설계해야 함

  ㅇ 학습 목적  :  장기 누적 보상을 최대화하는 정책(전략)을 찾는 것
     - 이전의 행동이 미래의 보상에 영향을 미치므로, 
        . 단기 보상이 아닌 장기적인 전략이 중요 
     - 수학적으로, 할인율(Discount Factor, γ)을 통해 반영됨


4. 강화 학습의 구성 요소

  ㅇ 환경 (Environment, E)  :  에이전트가 상호작용하는 대상 세계
  ㅇ 상태 (State, S)  :  현재 환경의 상황을 나타내는 정보
  ㅇ 행동 (Action, A)  :  에이전트가 선택할 수 있는 동작
  ㅇ 전이 (Transition, P)  :  상태와 행동에 따라 다음 상태확률적으로 전이
  ㅇ 보상 (Reward, R)  :  행동 결과로 환경이 주는 값 (정수 or 실수)
     - 보상 함수 (Reward Function)  
        . 에이전트가 어떤 상태에서 특정 행동을 할 때, (상태 전이시)
        . 환경은, 환경 내 잠재된 보상 함수에 기반하여, 그 행동이 얼마나 `좋은지`/ `나쁜지`를,
        . 에이전트에게 상벌에 대한 수치로써 알려줌
  ㅇ 정책 (Policy, π)  :  상태에 따라 어떤 행동을 선택할지 결정하는 전략
  ㅇ 가치함수 (Value Function)  :  특정 상태 또는 상태 - 행동 쌍의 장기적인 보상 기대값

  ※ 일반적으로, 환경은 다음과 같은 튜플로 표현됨  :  E = (S, A, P, R) 


5. 강화 학습의 과정  :  (반복 루프)

  ㅇ 현재 상태 S에서 행동 A를 선택 (Policy 기반)
  ㅇ 행동 A를 환경에 적용하여, 보상 R과 새로운 상태 S'를 받음
  ㅇ 이 경험을 기반으로 정책(π)을 개선
  ㅇ 위 과정을 반복하여 점점 더 나은 정책학습


6. 강화 학습 알고리즘

  ㅇ 가치 기반 (Value-based)
     - Q-learning 등

  ㅇ 정책 기반 (Policy-based)
     - 정책 경사(Policy Gradient) 등

  ㅇ 모델 기반 (Model-based)
     - 환경 모델추정하여 계획 수립 (Dyna-Q, World Models 등)

학습법
1. 강화학습  
용어해설 종합 (단일 페이지 형태)

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"
     [정보통신기술용어해설]          Copyrightⓒ 차재복