AI 발전의 중심에는 데이터 블랙홀이 있다: Dwarkesh (youtube.com) ↗

|
공유
  • Dwarkesh의 핵심 주장은 AI가 최근 좋아진 이유가 “더 적은 데이터로 더 잘 배우게 됐기 때문”이 아니라는 것. 더 넓고 좋은 데이터를 훨씬 많이 넣었기 때문이라고 봄
  • 여기서 샘플 효율은 어떤 일을 익히는 데 필요한 데이터의 양을 뜻함. 인간은 적은 예시로 새 일을 배우지만, AI는 같은 능력을 얻기 위해 엄청난 예시와 반복이 필요함
  • RL(강화학습)은 모델이 여러 답을 시도하고, verifier(채점기)나 평가 기준으로 좋은 답을 찾아내는 과정에 가까움. 그래서 사실상 합성 데이터를 만드는 방식으로 볼 수 있음
  • AI 능력의 중심에는 보이지 않는 거대한 데이터 덩어리가 있음. 그는 이를 “데이터 블랙홀”에 비유함
  • Dwarkesh Patel의 AI 연구 해설 영상. 인간과 AI의 샘플 효율 차이와 RL 데이터 산업을 다룸

AI 발전은 왜 데이터에서 나오나?

  • 지금 모델 성능 개선의 큰 축은 특정 업무를 잘하게 만드는 데이터와 검증 루프라고 설명함
  • 예를 들어 Word 문서를 다듬는 전문가, M&A 실사 보고서를 쓰는 법률 전문가, 시장조사 템플릿을 만드는 컨설턴트가 실제 학습 데이터 생산에 들어감
  • 좋은 답의 기준표, 실패 이유 설명, 생각 과정 예시까지 업무별로 따로 만들어야 함. 그래서 데이터 라벨링과 RL 환경 산업이 수십억 달러 규모로 커졌다고 봄
  • 흥미로운 근거는 open model이 frontier model을 몇 달 안에 따라잡는 현상임. 진짜 비밀이 모델 구조나 훈련 요령에 있다면 따라잡기 어려워야 함
  • 반대로 데이터가 핵심이면, 공개 API로 큰 모델의 답을 뽑아 distillation(큰 모델의 출력을 작은 모델 학습에 쓰는 방식)하는 것만으로도 격차를 줄일 수 있음

인간은 왜 훨씬 적은 데이터로 배우나?

  • 사람이 태어나 성인이 될 때까지 보는 언어 데이터는 대략 2억 토큰으로 추정함. 반면 frontier model은 수십조에서 수백조 토큰으로 학습됨
  • 차이는 거의 백만 배에 가까움. AI가 인간보다 훨씬 많은 예시를 봐야 비슷한 언어 능력을 얻는다는 뜻
  • 로봇도 비슷함. 사람은 몇 시간 안에 로봇 팔을 조종하는 법을 익히지만, AI는 수백만 시간의 시연 데이터로도 복잡한 작업을 안정적으로 하기 어려움
  • 운전도 예시로 듦. 십대는 약 20시간의 연습으로 운전을 배우지만, Waymo와 Tesla는 자율주행 모델에 그보다 몇 천 배에서 몇 만 배 많은 데이터를 씀
비교인간AI 모델
언어 학습성인까지 약 2억 토큰수십조에서 수백조 토큰
운전약 20시간 연습방대한 주행 데이터와 시뮬레이션
새 업무적은 설명과 몇 번의 연습업무별 예시, 기준표, 반복 시도 필요

반론들은 왜 충분하지 않나?

  • 첫 반론은 “인간은 진화가 미리 훈련해둔 존재”라는 주장임. Dwarkesh는 게놈이 약 3GB라서 뇌의 모든 연결을 저장하기엔 너무 작다고 봄
  • 더 가까운 비유는 진화가 좋은 학습 규칙을 찾았고, 실제 뇌의 연결은 생애 안에서 만들어진다는 쪽임
  • 둘째 반론은 인간이 감각 데이터를 훨씬 많이 본다는 주장임. 하지만 시각이나 청각 일부가 없어도 일반지능이 가능하다는 점은 이 설명을 약하게 만듦
  • 셋째 반론은 모델을 더 크게 만들면 된다는 주장임. 그는 기존 scaling law로는 모델 크기를 키워도 필요한 데이터가 줄어드는 폭에 한계가 있어, 인간과의 격차를 다 메우기 어렵다고 봄

샘플 효율이 낮아도 자동화는 왜 가능한가?

  • 샘플 효율이 낮다고 AI가 쓸모없다는 뜻은 아님. 반복적이고 흔한 화이트칼라 업무는 학습 데이터 안으로 끌어오기 쉽기 때문
  • 소프트웨어 엔지니어, 분석가, 회계사가 자주 하는 공통 업무는 대량 예시를 만들고 평가하기 상대적으로 쉬움
  • 인간이라면 GitHub 전체를 읽고 나서야 개발자가 되는 방식은 말이 안 됨. 하지만 AI는 한 번 학습한 결과를 수십억 세션에 나눠 쓸 수 있음
  • 문제는 학습 데이터 밖의 상황임. 매일 낯선 문제를 정의하고, 애매한 요구를 풀고, 새로운 도구를 조합해야 하는 직업은 더 오래 남을 수 있음
  • Dwarkesh는 소프트웨어 엔지니어링도 그런 쪽일 수 있다고 봄. AI가 먼저 대체할 직업으로 자주 언급되지만, 2028년에는 오히려 AI 덕분에 인간 개발자 수요가 지금보다 클 수 있다고 예상함

샘플 효율이란 무엇인가요?

어떤 능력을 얻는 데 필요한 데이터의 양을 뜻함. 적은 예시로 새 일을 배우면 샘플 효율이 높은 것이고, 많은 예시와 반복이 필요하면 낮은 것임. Dwarkesh는 인간이 현재 AI보다 훨씬 샘플 효율이 높다고 봄.

AI의 데이터 블랙홀은 무슨 뜻인가요?

겉으로 보면 모델이 다양한 능력을 가진 것처럼 보이지만, 그 중심에는 보이지 않는 거대한 학습 데이터와 검증 데이터가 있다는 뜻임. 모델의 능력은 많은 전문가 예시, 평가표, RL 시도 결과가 쌓여 만들어진다는 설명임.

AI가 인간처럼 못 배우면 화이트칼라 자동화는 어렵나요?

꼭 그렇지는 않음. 흔하고 반복되는 업무는 데이터를 많이 만들어 학습시킬 수 있고, AI는 한 번 배운 능력을 수많은 사용자에게 동시에 제공할 수 있음. 다만 학습 데이터 밖의 애매한 문제를 풀어야 하는 일은 더 어려울 수 있음.

1인기업 관점

결국 모델에 제일 중요한 건 환경이랑 데이터인 듯함. 사람도 똑같지 않나 싶음. 좋은 환경에서 잘 먹이고 잘 가르치면 좋게 나온다는 거.


관련: RL 시장은 왜 더 커질까OpenAI: 모델 평가를 다시 만드는 이유도 같이 보면 좋음.

관련 글

뉴스레터 구독

매주 엄선된 1인기업 뉴스를 이메일로 받아보세요.