Yann LeCun이 LLM 대신 JEPA에 베팅하는 이유: Welch Labs (youtu.be) ↗
- 한 줄 요약. Meta 수석 AI 과학자 Yann LeCun이 “LLM은 진짜 지능으로 가는 길이 아님”이라며 베팅하는 다른 방향이 JEPA(joint embedding predictive architecture). 영상·로봇처럼 현실 세계를 다루려면 LLM 방식이 막힌다는 입장
- 핵심 비유. LeCun의 유명한 “케이크 슬라이드”. 지능 케이크의 본체는 self-supervised learning(라벨 없이 데이터 자체로 학습), 위에 얹은 아이싱이 supervised learning, 그 위 체리가 reinforcement learning. RL은 가장 작은 조각이라는 입장
- 왜 LLM 방식이 영상엔 안 통하나. 다음 토큰 예측을 그대로 다음 영상 프레임 예측에 옮기면 결과가 흐릿해짐. 같은 출발점에서 가능한 미래가 너무 많아서 모델이 평균만 뱉기 때문
- 대안. 픽셀을 직접 만들지 말고, 영상을 임베딩(요약 벡터)으로 압축한 뒤 그 다음 임베딩을 예측. 거기에 행동(action)을 조건으로 붙이면 “이 행동을 하면 세상이 어떻게 바뀔지” 예측하는 world model이 됨
- Welch Labs 유튜브 다큐 1편(약 30분). Yann LeCun은 Meta 수석 AI 과학자, 80년대 CNN(합성곱 신경망)을 개척한 인물로 Hinton·Bengio와 함께 2018년 튜링상 수상
Generative video는 왜 흐릿한 결과만 내나?
- LLM이 다음 토큰을 예측하는 방식을 영상에 그대로 적용하면, 다음 프레임의 픽셀 값을 직접 맞히는 모델이 됨
- 문제는 가능한 다음 프레임이 너무 많다는 것. Full HD 한 장에서 가능한 픽셀 조합이 약 10^15M가지로, 관측 가능한 우주의 원자 수보다 많음. LLM이 토큰 5만개 후보 중 하나 고르듯 후보를 나열할 수가 없음
- 그래서 모델은 픽셀 값을 직접 출력. 공이 튀는 영상에서 공이 왼쪽으로도 오른쪽으로도 갈 수 있으면, 모델은 한 답을 강요당해서 두 결과의 평균을 뱉음. 그게 흐릿한 잔상의 정체
- 같은 갈림길이 LLM(언어)에선 왜 문제가 안 되나. “공이 OO로 튀었다”의 빈칸을 채울 때 LLM은 “왼쪽”·“오른쪽” 두 단어의 확률을 각각 50%로 잡고 그중 하나를 뽑으면 끝. 단어가 따로 떨어진 단위라 둘이 섞일 일이 애초에 없음. 영상은 픽셀 값이라 두 결과가 그대로 섞여 평균이 되어버림
- 자기 출력을 다음 입력으로 다시 넣는 자기회귀(auto-regressive) 방식을 영상에 쓰면 흐릿함이 점점 누적돼 결국 안개 같은 화면만 남음
JEPA는 뭐가 다른가?
- 핵심 발상. 픽셀을 직접 생성하지 말고, 영상 두 장(현재·다음)을 인코더에 넣어 요약 벡터로 줄이고 그 벡터끼리 비교
- 같은 장면의 두 버전(원본 + 살짝 변형)을 두 인코더에 통과시켜 비슷한 벡터를 내라고 학습. 이걸 Siamese network이라 부름. LeCun이 Bell Labs 시절인 90년대 초 위조 서명 판별용으로 처음 만든 구조
- 함정이 있음. 입력에 상관없이 항상 같은 벡터를 뱉으면 둘이 무조건 비슷해져 학습이 망함. 표현 붕괴(representation collapse) 문제
- 해결책으로 LeCun이 2021년 박사후연구원 Stéphane Deny와 함께 낸 게 Barlow Twins. 1961년 신경과학자 Horace Barlow의 가설(“뇌 뉴런들은 서로 중복된 정보를 줄이려 한다”)을 신경망에 적용
- 두 인코더 출력 벡터의 상관행렬을 계산해, 같은 자리(대각선)는 1에 가깝게, 다른 자리(비대각)는 0에 가깝게 학습. 그러면 모델이 한 답으로 도망가지 못함
- 효과. ImageNet 분류 정확도가 AlexNet(2012, 라벨 학습) 59.3%였는데, Barlow Twins(2021, 라벨 없는 자기지도)는 73.2%. 라벨 한 장 안 쓰고 더 잘함
- 이후 VICReg(단순화 버전), FAIR Paris의 DINO 시리즈로 발전. 2025년 8월 공개된 DINO v3는 ImageNet 88.4%로, 자기지도 모델이 처음으로 weakly-supervised 모델과 어깨를 나란히 함
World model이 왜 진짜 지능의 핵심인가?
- LeCun이 자주 드는 비유. 17세 청소년은 약 20시간 운전 연습이면 운전을 배움. Tesla는 수백만 시간 운전 영상을 가지고도 레벨 3 이상으로 못 감
- 차이는 사람이 머릿속에 “이 행동을 하면 세상이 이렇게 바뀔 것”이라는 모델(world model)을 갖고 있기 때문. 시도하기 전에 머릿속에서 결과를 시뮬레이션 가능
- JEPA에 행동(action)을 조건으로 추가하면 정확히 그 world model이 됨. “지금 이 영상에서 로봇 팔이 이런 신호를 받으면 다음 프레임의 임베딩이 어떻게 변할지” 예측
- V-JEPA 2 시연. 컵을 받침대에서 옮기는 목표 영상을 인코더에 넣어 목표 임베딩을 뽑고, 가능한 행동 후보들을 시뮬레이션해 그 임베딩에 가장 가깝게 만드는 행동 시퀀스를 찾음
- LeCun 표현. “추론 과정이 자기회귀 예측이 아니라 탐색(search)이 됨”. 사람이 미리 머릿속으로 여러 길을 그려보고 고르는 것과 비슷한 방식
- 발언 인용. “결과를 예측 못 하는 시스템이 어떻게 agentic하다고 부를 수 있는지 모르겠음. LLM 에이전트는 그냥 행동을 던지고 망하는 식”. 안전 가드레일 측면에서도 결과 예측 능력이 본질이라는 입장
LLM과 JEPA는 어떻게 다른가?
| 항목 | LLM (GPT 계열) | JEPA |
|---|---|---|
| 출력 | 다음 토큰의 확률 | 다음 상태의 임베딩(요약 벡터) |
| 학습 신호 | 텍스트 다음 토큰 | 두 시점 임베딩 사이 거리 |
| 영상에서 작동 | 흐릿함 (평균 문제) | 가능 (요약만 예측) |
| 행동 조건 | 안 됨 (텍스트 입출력) | 됨 (controls 신호 입력) |
| 추론 방식 | 자기회귀 예측 | 탐색·계획 |
| 안전 가드레일 | 결과 예측 어려움 | 결과 예측 후 걸러낼 수 있음 |
Sutton과 LeCun은 어디서 갈라지나?
- 둘 다 “LLM은 막다른 길이고 transition model / world model이 빠져 있다”는 진단까진 같음. 다음에 가야 할 길에서 정반대로 갈라짐
- Sutton(강화학습의 사실상 창시자, 올해 튜링상 수상) 입장. AGI 가려면 순수 RL로 가야 함. LLM은 사람 텍스트를 흉내내며 학습된 시스템이라 human bias가 박혀 있고, 그래서 본질적으로 진짜 지능에 못 닿음. 동물이 환경에 부딪히고 보상 받으면서 배우듯이 처음부터 경험으로만 학습해야 한다는 입장
- LeCun 입장. RL은 너무 sample-inefficient(보상 한 번 받으려고 시도가 너무 많이 필요)해서 본체로는 못 씀. 본체는 self-supervised. 아이가 보상 없이도 영상을 그냥 보면서 중력·물체 영속성을 배우는 자리가 본체라는 입장
- LeCun이 2015년부터 “케이크 슬라이드”로 RL을 체리 자리로 깎아내려온 셈인데, Sutton 시각으로 보면 그 그림이 케이크 본체와 체리를 거꾸로 그린 것
| 항목 | Sutton | LeCun |
|---|---|---|
| AGI 가는 길 | 순수 RL (보상으로 시도/실패) | self-supervised + world model |
| LLM 평가 | 사람 텍스트의 human bias 때문에 AGI 못 감 | 언어엔 잘 통하지만 영상·로봇엔 막힘 |
| RL의 위상 | 전부 | 케이크 위 체리 |
| ground truth 출처 | 환경 보상 | 데이터 안 다음 신호 |
| 모방·관찰 학습 | 거의 없음 / 작은 층 | 본체 |
| 다음 단계 | 경험의 시대 (사람 데이터 버리고 RL 확장) | JEPA (자기지도로 world model) |
- 동의하는 자리도 있음. Sutton이 말하는 “전이 모델(transition model)“이 LeCun의 world model과 사실상 같은 자리. ground truth가 있어야 진짜 학습이라는 점도 일치, 출처만 다름
- 한 줄로. “LLM 다음으로 가야 한다”엔 둘 다 동의, “어디로?”에서 Sutton은 순수 RL로, LeCun은 self-supervised로 갈라짐
LeCun이 정말 LLM이 끝났다고 보나?
LLM 자체가 무용하다는 입장은 아님. “언어 처리에 한해선 next token prediction이 잘 통한다”는 점은 인정함. 다만 영상·로봇처럼 현실 세계를 다루는 영역엔 LLM 방식이 본질적으로 막힌다는 게 핵심 주장. 다음 단계는 JEPA 같은 비생성(non-generative) 자기지도학습이라는 입장.
1인기업가가 JEPA를 지금 써볼 수 있나?
직접 갖다 쓰는 제품은 아직 아님. 다만 DINO v3 같은 시각 임베딩 모델은 공개돼 있고 Hugging Face에서 받아 이미지 분류·검색 같은 작업에 라벨 없이 쓸 수 있음. V-JEPA 2는 연구용에 가깝고 제품 형태로 바로 쓰긴 어려움. 의미는 “AI의 다음 단계가 텍스트 예측 너머에 있다”는 신호로 받는 게 1차적임.
1인기업 관점
AGI 향한 길에서 한 명은 pure RL, 다른 한 명은 self-supervised라고 정반대를 외치는 게 그냥 재밌음. 두 거장이 이렇게 갈라질 땐 보통 한쪽이 이긴다기보단 결국 합쳐지는 식으로 풀리던데, 다음 몇 년 안에 JEPA가 로봇·영상에서 실제 결과를 내는지가 분기점이 될 듯.
관련: 강화학습의 아버지 Richard Sutton: LLM은 막다른 길과 재귀(Recursion)가 AI의 다음 스케일링 축: Y Combinator도 같이 보면 좋습니다.
관련 글
화면 녹화 1100만 시간으로 학습한 컴퓨터 에이전트: Standard Intelligence FDM-1
Standard Intelligence가 공개한 FDM-1. 인터넷 규모 화면 영상으로 학습해 CAD·UI 테스트·자율주행까지 시연. 1인기업이 컴퓨터 에이전트 시대를 가늠할 신호.
Ben Horowitz: AI 시대, 기업의 물리 법칙이 바뀌었다 (a16z)
a16z 공동창업자 Ben Horowitz의 인터뷰. 돈으로 격차 메우는 게 가능해졌고 락인은 사라짐. 1인기업이 새 SaaS 시대를 읽는 단서.
Meta, 직원 키보드·마우스 추적해 AI 학습: Business Insider
Meta가 미국 직원 PC에 키보드·마우스 기록 도구를 의무 설치해 AI 학습. 1인기업이 컴퓨터 다루는 AI 에이전트 시대를 보는 데 참고할 신호.
뉴스레터 구독
매주 엄선된 1인기업 뉴스를 이메일로 받아보세요.