Yann LeCun이 LLM 대신 JEPA에 베팅하는 이유: Welch Labs

한 줄 요약. Meta 수석 AI 과학자 Yann LeCun이 “LLM은 진짜 지능으로 가는 길이 아님”이라며 베팅하는 다른 방향이 JEPA(joint embedding predictive architecture). 영상·로봇처럼 현실 세계를 다루려면 LLM 방식이 막힌다는 입장
핵심 비유. LeCun의 유명한 “케이크 슬라이드”. 지능 케이크의 본체는 self-supervised learning(라벨 없이 데이터 자체로 학습), 위에 얹은 아이싱이 supervised learning, 그 위 체리가 reinforcement learning. RL은 가장 작은 조각이라는 입장
왜 LLM 방식이 영상엔 안 통하나. 다음 토큰 예측을 그대로 다음 영상 프레임 예측에 옮기면 결과가 흐릿해짐. 같은 출발점에서 가능한 미래가 너무 많아서 모델이 평균만 뱉기 때문
대안. 픽셀을 직접 만들지 말고, 영상을 임베딩(요약 벡터)으로 압축한 뒤 그 다음 임베딩을 예측. 거기에 행동(action)을 조건으로 붙이면 “이 행동을 하면 세상이 어떻게 바뀔지” 예측하는 world model이 됨
Welch Labs 유튜브 다큐 1편(약 30분). Yann LeCun은 Meta 수석 AI 과학자, 80년대 CNN(합성곱 신경망)을 개척한 인물로 Hinton·Bengio와 함께 2018년 튜링상 수상

Generative video는 왜 흐릿한 결과만 내나?

LLM이 다음 토큰을 예측하는 방식을 영상에 그대로 적용하면, 다음 프레임의 픽셀 값을 직접 맞히는 모델이 됨
문제는 가능한 다음 프레임이 너무 많다는 것. Full HD 한 장에서 가능한 픽셀 조합이 약 10^15M가지로, 관측 가능한 우주의 원자 수보다 많음. LLM이 토큰 5만개 후보 중 하나 고르듯 후보를 나열할 수가 없음
그래서 모델은 픽셀 값을 직접 출력. 공이 튀는 영상에서 공이 왼쪽으로도 오른쪽으로도 갈 수 있으면, 모델은 한 답을 강요당해서 두 결과의 평균을 뱉음. 그게 흐릿한 잔상의 정체
같은 갈림길이 LLM(언어)에선 왜 문제가 안 되나. “공이 OO로 튀었다”의 빈칸을 채울 때 LLM은 “왼쪽”·“오른쪽” 두 단어의 확률을 각각 50%로 잡고 그중 하나를 뽑으면 끝. 단어가 따로 떨어진 단위라 둘이 섞일 일이 애초에 없음. 영상은 픽셀 값이라 두 결과가 그대로 섞여 평균이 되어버림
자기 출력을 다음 입력으로 다시 넣는 자기회귀(auto-regressive) 방식을 영상에 쓰면 흐릿함이 점점 누적돼 결국 안개 같은 화면만 남음

JEPA는 뭐가 다른가?

핵심 발상. 픽셀을 직접 생성하지 말고, 영상 두 장(현재·다음)을 인코더에 넣어 요약 벡터로 줄이고 그 벡터끼리 비교
같은 장면의 두 버전(원본 + 살짝 변형)을 두 인코더에 통과시켜 비슷한 벡터를 내라고 학습. 이걸 Siamese network이라 부름. LeCun이 Bell Labs 시절인 90년대 초 위조 서명 판별용으로 처음 만든 구조
함정이 있음. 입력에 상관없이 항상 같은 벡터를 뱉으면 둘이 무조건 비슷해져 학습이 망함. 표현 붕괴(representation collapse) 문제
해결책으로 LeCun이 2021년 박사후연구원 Stéphane Deny와 함께 낸 게 Barlow Twins. 1961년 신경과학자 Horace Barlow의 가설(“뇌 뉴런들은 서로 중복된 정보를 줄이려 한다”)을 신경망에 적용
두 인코더 출력 벡터의 상관행렬을 계산해, 같은 자리(대각선)는 1에 가깝게, 다른 자리(비대각)는 0에 가깝게 학습. 그러면 모델이 한 답으로 도망가지 못함
효과. ImageNet 분류 정확도가 AlexNet(2012, 라벨 학습) 59.3%였는데, Barlow Twins(2021, 라벨 없는 자기지도)는 73.2%. 라벨 한 장 안 쓰고 더 잘함
이후 VICReg(단순화 버전), FAIR Paris의 DINO 시리즈로 발전. 2025년 8월 공개된 DINO v3는 ImageNet 88.4%로, 자기지도 모델이 처음으로 weakly-supervised 모델과 어깨를 나란히 함

World model이 왜 진짜 지능의 핵심인가?

LeCun이 자주 드는 비유. 17세 청소년은 약 20시간 운전 연습이면 운전을 배움. Tesla는 수백만 시간 운전 영상을 가지고도 레벨 3 이상으로 못 감
차이는 사람이 머릿속에 “이 행동을 하면 세상이 이렇게 바뀔 것”이라는 모델(world model)을 갖고 있기 때문. 시도하기 전에 머릿속에서 결과를 시뮬레이션 가능
JEPA에 행동(action)을 조건으로 추가하면 정확히 그 world model이 됨. “지금 이 영상에서 로봇 팔이 이런 신호를 받으면 다음 프레임의 임베딩이 어떻게 변할지” 예측
V-JEPA 2 시연. 컵을 받침대에서 옮기는 목표 영상을 인코더에 넣어 목표 임베딩을 뽑고, 가능한 행동 후보들을 시뮬레이션해 그 임베딩에 가장 가깝게 만드는 행동 시퀀스를 찾음
LeCun 표현. “추론 과정이 자기회귀 예측이 아니라 탐색(search)이 됨”. 사람이 미리 머릿속으로 여러 길을 그려보고 고르는 것과 비슷한 방식
발언 인용. “결과를 예측 못 하는 시스템이 어떻게 agentic하다고 부를 수 있는지 모르겠음. LLM 에이전트는 그냥 행동을 던지고 망하는 식”. 안전 가드레일 측면에서도 결과 예측 능력이 본질이라는 입장

LLM과 JEPA는 어떻게 다른가?

항목	LLM (GPT 계열)	JEPA
출력	다음 토큰의 확률	다음 상태의 임베딩(요약 벡터)
학습 신호	텍스트 다음 토큰	두 시점 임베딩 사이 거리
영상에서 작동	흐릿함 (평균 문제)	가능 (요약만 예측)
행동 조건	안 됨 (텍스트 입출력)	됨 (controls 신호 입력)
추론 방식	자기회귀 예측	탐색·계획
안전 가드레일	결과 예측 어려움	결과 예측 후 걸러낼 수 있음

Sutton과 LeCun은 어디서 갈라지나?

둘 다 “LLM은 막다른 길이고 transition model / world model이 빠져 있다”는 진단까진 같음. 다음에 가야 할 길에서 정반대로 갈라짐
Sutton(강화학습의 사실상 창시자, 올해 튜링상 수상) 입장. AGI 가려면 순수 RL로 가야 함. LLM은 사람 텍스트를 흉내내며 학습된 시스템이라 human bias가 박혀 있고, 그래서 본질적으로 진짜 지능에 못 닿음. 동물이 환경에 부딪히고 보상 받으면서 배우듯이 처음부터 경험으로만 학습해야 한다는 입장
LeCun 입장. RL은 너무 sample-inefficient(보상 한 번 받으려고 시도가 너무 많이 필요)해서 본체로는 못 씀. 본체는 self-supervised. 아이가 보상 없이도 영상을 그냥 보면서 중력·물체 영속성을 배우는 자리가 본체라는 입장
LeCun이 2015년부터 “케이크 슬라이드”로 RL을 체리 자리로 깎아내려온 셈인데, Sutton 시각으로 보면 그 그림이 케이크 본체와 체리를 거꾸로 그린 것

항목	Sutton	LeCun
AGI 가는 길	순수 RL (보상으로 시도/실패)	self-supervised + world model
LLM 평가	사람 텍스트의 human bias 때문에 AGI 못 감	언어엔 잘 통하지만 영상·로봇엔 막힘
RL의 위상	전부	케이크 위 체리
ground truth 출처	환경 보상	데이터 안 다음 신호
모방·관찰 학습	거의 없음 / 작은 층	본체
다음 단계	경험의 시대 (사람 데이터 버리고 RL 확장)	JEPA (자기지도로 world model)

동의하는 자리도 있음. Sutton이 말하는 “전이 모델(transition model)“이 LeCun의 world model과 사실상 같은 자리. ground truth가 있어야 진짜 학습이라는 점도 일치, 출처만 다름
한 줄로. “LLM 다음으로 가야 한다”엔 둘 다 동의, “어디로?”에서 Sutton은 순수 RL로, LeCun은 self-supervised로 갈라짐

LeCun이 정말 LLM이 끝났다고 보나?

LLM 자체가 무용하다는 입장은 아님. “언어 처리에 한해선 next token prediction이 잘 통한다”는 점은 인정함. 다만 영상·로봇처럼 현실 세계를 다루는 영역엔 LLM 방식이 본질적으로 막힌다는 게 핵심 주장. 다음 단계는 JEPA 같은 비생성(non-generative) 자기지도학습이라는 입장.

1인기업가가 JEPA를 지금 써볼 수 있나?

직접 갖다 쓰는 제품은 아직 아님. 다만 DINO v3 같은 시각 임베딩 모델은 공개돼 있고 Hugging Face에서 받아 이미지 분류·검색 같은 작업에 라벨 없이 쓸 수 있음. V-JEPA 2는 연구용에 가깝고 제품 형태로 바로 쓰긴 어려움. 의미는 “AI의 다음 단계가 텍스트 예측 너머에 있다”는 신호로 받는 게 1차적임.

1인기업 관점

AGI 향한 길에서 한 명은 pure RL, 다른 한 명은 self-supervised라고 정반대를 외치는 게 그냥 재밌음. 두 거장이 이렇게 갈라질 땐 보통 한쪽이 이긴다기보단 결국 합쳐지는 식으로 풀리던데, 다음 몇 년 안에 JEPA가 로봇·영상에서 실제 결과를 내는지가 분기점이 될 듯.

Yann LeCun이 LLM 대신 JEPA에 베팅하는 이유: Welch Labs (youtu.be) ↗