강화학습의 아버지 Richard Sutton: LLM은 막다른 길

Sutton 핵심 주장: LLM은 사람의 말을 흉내내는 시스템이지, 세상을 모델링하는 시스템이 아님. 따라서 지능이라 부르기 어렵다는 입장
지능 = “목표를 달성하는 능력”(John McCarthy 정의). 다음 토큰 예측은 세상을 바꾸지 않으니 진짜 목표가 아니라는 비판
ground truth가 없는 게 핵심 결함. 강화학습은 보상이 있어서 “맞는 행동”이 정의되지만, LLM은 무엇이 옳은 응답인지 정의 자체가 없음
대안으로 제시하는 건 경험의 시대(era of experience). 감각·행동·보상이 평생 흐르는 스트림에서 지속 학습. 모든 포유류가 자연스럽게 하는 방식
Dwarkesh Patel 팟캐스트 1시간 대담. Richard Sutton은 올해 튜링상(컴퓨터과학의 노벨상) 수상자, TD learning·정책 그래디언트 등 강화학습 핵심 기법의 창시자

LLM은 왜 세상을 모델링하지 못하나?

핵심 어구. “LLM은 사람을 흉내내고, 그 사람들이 세계 모델을 가졌을 뿐”
진짜 세계 모델은 “내가 이 행동을 하면 무엇이 일어날지” 예측 가능해야 함. LLM은 “사람이 무슨 말을 할지”만 예측
다음 토큰 예측 = 자기가 무슨 말을 할지에 대한 예측이지, 세상이 응답으로 무엇을 돌려줄지에 대한 예측이 아님
chain of thought으로 컨텍스트 안에서 자기 추론을 수정하는 건 맞지만, 대화가 끝나면 그 학습이 사라짐. 진짜 학습은 가중치(weights)에 박혀야 다음 만남에서도 작동
동물의 학습은 단순함. 행동했더니 결과가 일어남, 그 결과로 가중치 업데이트. LLM에는 그 사이클이 없음

목표가 없으면 왜 지능이 아닌가?

McCarthy 정의 인용. “지능은 목표를 달성하는 능력의 계산적 부분”
LLM의 “목표”라는 게 다음 토큰 예측인데, 이건 외부 세계를 변화시키지 않음. 토큰은 그저 들어오는 것이라 영향력이 없음
Dwarkesh 반박: “수학 올림피아드 금메달 받은 모델은 문제 풀기라는 목표가 있지 않나?”
Sutton 답: 수학은 표준 플래닝(standard planning)에 가까움. 증명을 찾는 건 닫힌 시스템 안 게임. 물리 세계는 결과를 직접 부딪쳐야 배우는 영역이라 본질적으로 다름

경험의 시대(era of experience)란?

모든 포유류가 자연스럽게 하는 학습 방식. 감각 → 행동 → 보상 → 정책 갱신, 끝없이 반복
학습 대상도 그 스트림. 지식의 내용 = 스트림에 대한 진술이고, 곧바로 스트림에 비교해 검증 가능
AI 에이전트는 4개 부품으로 이루어짐
- 정책(policy): 지금 상황에서 무엇을 할지
- 가치 함수(value function): 지금 잘 가고 있는지 점수화. TD learning으로 학습
- 지각(perception): 상태를 어떻게 표현할지
- 전이 모델(transition model): “이 행동을 하면 무엇이 일어날지” 진짜 세계 모델
Sutton이 보기에 LLM은 사실상 정책 + 지각 일부만 있고 나머지 두 칸이 비어 있는 상태
디지털이라 가능한 것 하나. 한 에이전트가 학습한 결과를 다른 에이전트로 그대로 복사해서 시작점 삼기. 인간 자녀가 매번 처음부터 배우는 비효율을 우회. Sutton은 이게 사람 데이터로 학습하는 것보다 훨씬 더 중요해질 거라고 봄

비터 레슨은 LLM에 정말 적용되나?

먼저 비터 레슨이 뭔가. Sutton이 2019년에 쓴 짧은 글로, AI 역사에서 “사람이 손으로 넣은 지식”이 매번 “일반 알고리즘 + 대량 컴퓨팅”한테 졌다는 관찰
- 체스. 사람이 만든 정교한 전략 규칙보다 무식하게 수만 읽는 컴퓨팅이 이김(Deep Blue)
- 바둑. 사람의 직관 패턴을 모방한 시스템보다 self-play로 처음부터 배운 AlphaGo가 이김
- 음성 인식·번역·이미지 인식도 다 같은 패턴
그래서 LLM 스케일업도 비터 레슨의 한 사례로 자주 인용됨. 거대 컴퓨팅 쏟아붓는 방식이니 부합
그런데 Sutton 본인은 LLM이 비터 레슨에 절반만 맞는다고 봄. 컴퓨팅은 많이 쓰는데 동시에 인터넷 텍스트(=사람 지식)를 대량 주입하는 방식이기도 해서 나머지 절반은 어긋남
본인 예측. 인터넷 텍스트 한계에 부딪히는 순간, 경험으로 직접 학습하는 시스템이 LLM을 추월. 매번 그 패턴으로 갔으니 이번도 마찬가지라는 입장
Dwarkesh: “그럼 LLM을 출발점으로 두고 그 위에 경험 학습 얹으면 되지 않나?”
Sutton: “그렇게 시작할 수는 있음. 다만 역사적으로 사람 지식 접근법에 갇힌 사람들이 매번 진짜 확장 가능한 방법한테 점심을 빼앗기더라”

비교	LLM	경험/RL 패러다임
학습 대상	사람이 한 말	자기 행동의 결과
목표	다음 토큰 예측	외부 세계의 보상
ground truth	없음	있음 (실제 결과)
일반화	우연 또는 사람이 다듬음	핵심 과제, 아직 미해결
지속 학습	안 됨	핵심

LLM이 chain of thought으로 자기 추론을 수정하면 학습 아닌가?

Dwarkesh도 이 점을 짚었지만 Sutton은 “context 안에서의 수정일 뿐”이라고 잘라 답함. 진짜 학습은 가중치에 들어가야 다음 만남에서도 작동하는데, LLM은 대화 종료 후 그 수정이 사라짐. Sutton이 보는 학습은 “예측 빗나감 → 가중치 업데이트” 사이클이고, 그게 모든 동물이 자연스럽게 하는 것.

인간 아이도 모방으로 배우지 않나?

Dwarkesh가 가장 길게 끌고 간 반박이지만 Sutton 답은 단호함. 심리학자들이 정리한 기본 동물 학습엔 모방이 거의 없고, 아이가 입 모양·소리는 흉내내려 하지만 행동(action) 자체엔 모범 답안이 없음. 시도하고 결과를 보는 과정이 핵심. 인류학자 Joseph Henrich의 문화 진화론도 Sutton 입장에선 “기본 RL 위에 얹힌 작은 층”일 뿐.

Sutton이 보는 AI 승계(succession)는 무엇인가?

인터뷰 후반부의 별도 주제. 4단 논증으로 디지털 지능으로의 승계는 불가피하다는 입장. 인류 전체 통합 의사결정 기구 없음, 지능 원리는 결국 풀림, 인간 수준에서 멈출 이유 없음, 가장 똑똑한 존재가 자원·권력 차지. 본인은 이걸 우주 차원의 4번째 큰 단계(먼지·별·생명 다음으로 “설계된 지능”)로 보고 긍정적으로 수용하라는 입장.

1인기업 관점

Sutton 주장이 옳든 그르든 1인기업가한테 직접 닿는 한 줄이 있음. “ground truth가 있는 자리에서만 진짜 학습이 일어난다”는 부분. 1인기업가의 일상 운영 자체가 매일 매출, 이탈, 고객 피드백이 ground truth로 들어오는 환경이라 오히려 LLM이 흉내 못 내는 자리이기도 한 듯. 그래서 LLM에 전부 위임하는 그림보다 본인이 ground truth를 쥐고 LLM은 보조 두뇌로 두는 구조가 맞는 것 같음. continual learning이 LLM에 빠져 있다는 지적은, 매일 조금씩 정책을 바꾸는 1인기업가 쪽이 어떤 면에선 LLM보다 진짜 학습에 가깝다는 뜻이지 않나 싶음.

관련: Demis Hassabis YC 인터뷰: AGI까지 빠진 1~2가지와 AI에는 진입장벽이 없다: George Hotz도 같이 보면 좋습니다.

강화학습의 아버지 Richard Sutton: LLM은 막다른 길 (youtube.com) ↗