3Blue1Brown: AI 수학 증명은 AGI인가: Dwarkesh (youtube.com) ↗
- Grant Sanderson은 IMO 금메달급 수학 성과가 곧 AGI라는 뜻은 아니었다고 봄. AI는 특정 영역에서 매우 강하지만, 그 안에서도 쉬운 부분과 어려운 부분이 갈라짐
- IMO에서도 geometry는 brute force solver로 빠르게 풀 수 있지만, combinatorics는 훨씬 장난감 같고 창의적인 문제가 많아 더 어렵다는 설명
- 다음 단계는 theorem proving보다 conjecture와 definition임. 좋은 수학자는 정리를 증명하고, 더 좋은 수학자는 추측을 만들고, 가장 뛰어난 수학자는 정의를 만든다는 관점
- 문제는 이런 능력은 benchmark로 만들기 어렵다는 점. 점수화하기 어려운 능력은 현재 RLVR(검증 가능한 보상이 있는 강화학습) 방식으로도 바로 학습시키기 어려움
- 3Blue1Brown의 Grant Sanderson과 Dwarkesh Patel의 대담. AI가 수학에서 보이는 빠른 진전이 AGI, 학습, 교육, 과학 응용에 무엇을 뜻하는지 다룸
IMO 금메달은 왜 AGI가 아니었나?
- 3년 전 Dwarkesh는 “AI가 International Math Olympiad에서 금메달을 따면 AGI 아닌가”라고 물었고, Grant는 그것도 하나의 benchmark가 될 것이라고 답했음
- 실제로 그렇게 흘러감. AI는 수학에서 엄청나게 좋아졌지만, 세상이 갑자기 자동화되지는 않았음
- 이유는 능력이 뾰족하게 올라오기 때문임. AI frontier는 매끈한 구가 아니라 가시가 돋은 모양에 가깝고, 수학은 그 가시 중 하나
- 수학 안에서도 또 fractal하게 갈라짐. IMO의 geometry, number theory, algebra, combinatorics는 같은 “수학”처럼 보여도 난이도와 훈련 가능성이 다름
- geometry는 이미 solver가 강하게 작동하는 영역이고, combinatorics는 문제마다 장난감 규칙을 새로 이해해야 해 더 어려움
- 그래서 “수학 문제를 잘 푼다”는 말만으로 “모든 화이트칼라 업무를 잘한다”를 바로 뜻하지는 않음
AI가 Millennium Prize 문제를 풀면 달라질까?
- Grant는 답이 어떤 모양인지에 따라 다르다고 봄
- Riemann hypothesis 같은 문제를 푸는 방식이 서로 멀리 떨어진 분야를 연결하는 것이라면, LLM이 잘할 법한 능력과 닿아 있음
- 예시로 Hugh Montgomery와 Freeman Dyson 이야기가 나옴. 리만 제타 함수의 zero 통계와 random matrix의 eigenvalue 통계가 닮았다는 연결이 우연한 대화에서 발견됐다는 이야기
- AI는 quantum physics, analytic number theory, random matrix theory 같은 분야를 넓게 알고 있으니, 이런 연결을 더 자주 찾을 가능성이 있음
- 하지만 Fermat’s Last Theorem처럼 새 이론의 산을 쌓아야 하는 문제라면 다름. elliptic curve와 modular form 같은 거대한 개념 체계가 먼저 필요했음
- AI가 그런 “새 산”을 세울 수 있다면, 그건 IMO 금메달보다 훨씬 더 넓은 경제적 충격을 만들 가능성이 큼
증명보다 어려운 것은 무엇인가?
- 대담에서 핵심 문장은 “good mathematicians prove theorems, great mathematicians come up with conjectures, and the greatest mathematicians come up with definitions”에 가까움
- theorem proving은 정해진 문제를 푸는 일임. unit distance conjecture 반례처럼 결과가 맞는지 비교적 분명하면 headline도 만들 수 있음
- conjecture 생성은 “무엇이 흥미로운 문제인가”를 고르는 일임. 이것은 점수 하나로 평가하기 어려움
- definition 생성은 더 어려움. group theory처럼 처음에는 쓸모가 불분명해도, 나중에 cryptography와 physics까지 이어지는 개념이 될 수 있음
- Galois theory가 좋은 예시임. 당시에는 바로 인정받지 못했고, 현대적인 group theory로 자리 잡기까지 긴 시간이 걸렸음
| 단계 | 쉬운 설명 | 평가 난이도 |
|---|---|---|
| Theorem | 주어진 문제를 증명 | 비교적 쉬움 |
| Conjecture | 어떤 문제가 중요한지 제안 | 어려움 |
| Definition | 새 개념 틀을 만듦 | 매우 어려움 |
| Curation | 어떤 아이디어를 추구할지 고름 | 주관적이고 장기적 |
benchmark로 못 만들면 왜 중요한가?
- Grant와 Dwarkesh는 benchmark와 training environment 사이에 큰 차이가 없다고 봄
- 즉 점수화할 수 있는 것은 훈련에도 쓰기 쉽고, 점수화하기 어려운 것은 지금 방식으로 학습시키기도 어려움
- RLVR은 정답 검증이 가능한 문제에서 강함. 수학 증명, 코딩 테스트, 체스 같은 영역이 대표적임
- 하지만 좋은 conjecture나 좋은 definition은 검증 루프가 수십 년, 길게는 100년일 수 있음
- Galois의 아이디어가 왜 중요한지 바로 reward로 줄 수 없었고, group theory의 가치도 이후 physics와 cryptography에서 서서히 드러남
- 그래서 AI 수학의 다음 병목은 “정답을 맞히는가”가 아니라 “인간 수학자들이 같이 일하고 싶어 하는 사고 파트너인가”에 가까워질 수 있음
Lean은 수학 AI에 얼마나 중요한가?
- Lean은 수학 증명을 코드처럼 엄밀하게 검사할 수 있는 formal proof system임
- Grant는 현재 AI 수학 진전에는 Lean이 꼭 중심은 아니라고 봄. unit distance 문제 반례도 자연어 chain of thought 기반으로 진행됐고, DeepMind도 초기에는 Lean 중심이었다가 이후 자연어 풀이가 강해졌다는 설명
- 다만 Lean의 장점은 끝없이 돌릴 수 있는 자동 검증 루프임. 사람이 매번 확인하지 않아도 “이 증명은 맞다”를 기계적으로 판정할 수 있음
- 그래서 Lean은 당장의 headline보다 장기적으로 중요할 수 있음. AI가 스스로 conjecture, definition, theory를 만들고 검증하는 무한한 논리 나무를 키울 수 있기 때문
- 반대로 자연어 증명은 사람이 검토해야 하므로 속도와 신뢰성에 한계가 있음. verifier가 틀리면 잘못된 수학이 대량 생산될 위험도 있음
AI가 수학을 잘하면 AGI인가요?
아직은 아님. 수학 안에서도 geometry처럼 solver가 강한 영역과 combinatorics처럼 어려운 영역이 갈라짐. IMO 금메달급 성과는 중요하지만, 모든 경제 업무를 자동화한다는 뜻은 아님.
AI 수학에서 다음 benchmark는 무엇인가요?
정해진 문제를 푸는 benchmark보다 conjecture와 definition 생성이 더 중요해질 수 있음. 다만 좋은 추측과 좋은 정의는 점수화가 어려워서, 명확한 benchmark 형태로 나타나기 힘들 수 있음.
LLM으로 수학을 공부해도 되나요?
보조 도구로는 유용하지만, 좋은 인간 큐레이션이 여전히 중요함. Grant는 LLM 설명을 Wikipedia에 비유함. 빠르게 훑고 참고문헌을 찾는 데는 좋지만, 좋은 교재나 강의처럼 개념의 순서와 동기를 잡아주지는 못할 때가 많음.
1인기업 관점
이 대담은 eval을 만들 때 “정답이 있는 일”과 “좋은 방향을 고르는 일”을 분리해서 봐야 한다는 신호 같음. 1인기업도 고객 문의 분류, 오류 로그 원인 찾기처럼 채점 가능한 일은 benchmark로 만들 수 있지만, 어떤 제품을 만들지나 어떤 포지셔닝이 좋은지는 reward가 훨씬 늦게 오는 문제임. 그래서 AI를 쓸 때도 검증 가능한 업무는 자동화하고, conjecture와 definition에 가까운 제품 판단은 사람이 큐레이터처럼 잡고 가는 게 맞는 듯함.
관련: 다음 AI 학습 패러다임과 CUA: Dwarkesh와 OpenAI: 모델 평가를 다시 만드는 이유도 같이 보면 좋음.
관련 글
다음 AI 학습 패러다임과 CUA: Dwarkesh
RLVR 이후 AI가 어떻게 계속 학습할지, CUA와 resettable RL 환경, 1인기업 업무 데이터의 의미.
Google AI는 왜 인재를 잃고 있나: t3.gg
Theo가 본 Google AI의 조직 문제. Gemini, Workspace CLI, 에이전트 데이터를 1인기업 관점에서 정리.
Mechanize: 나쁜 eval이 나쁜 코드를 만든다
나쁜 평가 데이터가 AI 코딩 모델을 망치는 이유와 CUA eval 설계를 1인기업 관점에서 정리.
뉴스레터 구독
매주 엄선된 1인기업 뉴스를 이메일로 받아보세요.