강화학습, 지도학습의 차이점

2026. 1. 7. 23:02·Artificial Intelligence/Insights

현재 Richard S. Sutton 교수의 저서 『단단한 강화학습』 을 읽고 있는데, 초반부에 강화학습과 지도학습의 차이에 관해 상당히 많은 지면을 할애하고 있다. 처음엔 별 생각 없이 책을 읽어 나갔지만, 읽을수록 이 둘의 차이점이 모호하게 느껴지고 Sutton 교수가 지적하는 것처럼 착각하기 쉽다는 느낌이 들어 정리하기 위한 포스팅을 작성한다.

Sutton 교수는 다른 많은 연구자들이 지도학습을 연구하면서도 자신이 강화학습을 연구한다고 믿었던 경험담을 언급한다.

"예를 들어 로젠블렛(Rosenblatt, 1962), 위드로와 호프(Widrow and Hoff, 1960) 같은 연구자들은 강화학습의 개념에 동기를 부여받았으나, 실제로는 지도학습 시스템을 연구하고 있었다."
— 『단단한 강화학습』 21p

 

'시행착오' 의 진정한 의미

강화학습은 ‘시행착오’ 과정을 거친다. 이때 ‘시행착오’라는 용어 때문에 혼동을 겪기도 한다. 많은 딥러닝 서적들이 모델의 가중치를 업데이트하여 Loss 값을 최적화하는 과정 자체를 ‘시행착오’로 설명하기 때문이다. 넓은 의미에서 이는 틀린 말이 아니지만, Sutton 교수는 강화학습에서 말하는 ‘시행착오’가 이와는 완전히 다른 결을 가지고 있음을 분명히 한다.

Sutton 교수에 따르면, 기존의 신경망 학습(지도학습)은 올바른 행동이 무엇인지 알려주는 ‘주어진 정보(Instructed Information)’에 의존한다. 반면, 강화학습은 정답을 모르는 상태에서 평가적인 피드백(보상, Reward)에 기반하여 행동을 결정하고 수정해 나가는, 본질적인 의미의 시행착오 학습이다.

 

명확한 비교: CNN 손글씨 인식 vs CartPole

이 차이는 대표적인 지도학습 예제인 'CNN 손글씨 인식'과 강화학습 예제인 'CartPole'을 비교해보면 명확해진다.

1. 지도학습 (CNN 손글씨 인식)
CNN 모델에는 각 입력 $x$마다 명확한 정답(Label) $y$가 존재한다. 예를 들어, 숫자 '7' 이미지에는 '이것은 7이다' 라는 정답이 함께 주어진다. 모델의 목표는 이 정답 $y$와의 오차를 줄이는 것이다. 즉, 학습 과정이 정답을 맞히는 것에 집중되어 있다.

2. 강화학습 (CartPole)
CartPole 역시 ‘오랫동안 막대를 쓰러뜨리지 않고 생존하기’라는 명확한 목표가 있기에 언뜻 보면 지도학습과 비슷해 보인다. 하지만 결정적인 차이가 있다.

  • 지시(Instruction)가 아닌 평가(Evaluation)
    환경은 에이전트에게 '지금 오른쪽으로 움직였어야 해'라는 정답 행동(Label)을 알려주지 않는다. 대신 '+1점' 이라는 보상(Reward)을 통해 '방금 행동은 나쁘지 않았어'라고 평가할 뿐이다. 에이전트는 이 점수만 보고 스스로 무엇이 최적의 행동인지 찾아내야 한다.
  • 데이터의 상호작용
    지도학습은 고정된 데이터셋을 사용하지만, 강화학습에서는 나의 현재 행동 $A_t$가 미래의 상태 $S_{t+1}$를 변화시킨다. 내가 잘하면 계속 중심을 잡는 데이터를 보겠지만, 못하면 넘어지는 데이터만 보게 된다. 즉, 학습 주체가 스스로 학습할 데이터를 만들어가는 상호작용 과정이라는 점이 지도학습과는 명확히 다르다.

 

결론: 지침(Instruct) vs 평가(Evaluate)

결국 이 둘의 차이는 피드백의 성격으로 요약할 수 있다. 지도학습은 올바른 행동을 직접 알려주는 ‘지침(Instruct)’ 기반의 학습이고, 강화학습은 행동의 좋고 나쁨만을 점수로 알려주는 ‘평가(Evaluate)’ 기반의 학습이다.

CNN 손글씨 인식에서는 '이 이미지에는 7을 출력하라'는 명확한 지침이 있다. 반면, CartPole을 훈련하는 에이전트는 보상(Reward)의 총합을 최대화해야 한다는 과제만 받는다. 이 보상을 최대화하기 위해 탐욕적인(Exploitation, 이미 알고 있는 좋은 방법) 행동을 할지, 아니면 더 나은 보상을 찾기 위해 탐색적인(Exploration, 새로운 방법) 시도를 해볼지는 에이전트가 자신의 정책, 가치함수, 그리고 환경 모델에 근거하여 스스로 판단해야 한다.

이것이 Sutton 교수가 강조하는 강화학습과 지도학습의 차이점이다.

저작자표시 비영리 동일조건 (새창열림)

'Artificial Intelligence > Insights' 카테고리의 다른 글

MDP, TD, MC를 이해해보자  (1) 2026.01.27
강화학습, 월드모델의 차이점  (2) 2025.12.14
LLM 서빙 최적화의 함정: Chunked Prefill과 Disaggregation의 한계  (0) 2025.11.01
Common Voice 데이터셋은 신뢰할 수 없다.  (0) 2024.01.31
[OpenAI] Superalignment  (0) 2023.12.15
'Artificial Intelligence/Insights' 카테고리의 다른 글
  • MDP, TD, MC를 이해해보자
  • 강화학습, 월드모델의 차이점
  • LLM 서빙 최적화의 함정: Chunked Prefill과 Disaggregation의 한계
  • Common Voice 데이터셋은 신뢰할 수 없다.
Cyp
Cyp
  • Cyp
    Cyp Software Blog
    Cyp
  • 전체
    오늘
    어제
    • Cyp Blog (170)
      • Artificial Intelligence (47)
        • Paper Review (23)
        • Insights (6)
        • Fundamentals (15)
        • Preferences (3)
      • Cyber Security (1)
      • Programming (46)
        • C++ (21)
        • C# (19)
        • Python (2)
        • Rust (0)
        • Java (1)
      • Algorithm (17)
        • BACKJOON (15)
      • Operating System (14)
        • WSL (2)
        • Windows (1)
        • Linux (5)
        • Security (3)
      • Tools (26)
        • Docker (3)
        • DataBase (2)
        • SSH (1)
        • Doxygen (2)
        • Etc (17)
      • Miscellaneous (19)
        • Book (2)
        • Hardware (2)
        • Hevel (1)
  • 블로그 메뉴

    • Home
    • Guest Book
  • 링크

    • Github
    • X
  • 공지사항

    • 블로그 업데이트 노트
    • 블로그 운영방침
  • 인기 글

  • 태그

    y-cruncher
    Bom
    UTF-8 without BOM
    utf-8 bom
    C4819
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.6
Cyp
강화학습, 지도학습의 차이점
상단으로

티스토리툴바