재귀(Recursion)가 AI의 다음 스케일링 축: Y Combinator (youtube.com) ↗

· · 5분 읽기
|
공유
  • 한 줄 요약. AI를 더 똑똑하게 만드는 새 방법으로 “같은 작은 모델을 여러 번 반복 호출하기”가 떠오르는 중. 모델을 더 크게 만드는 대신
  • 충격 결과. 700만 파라미터짜리 작은 모델(TRM)이 ARC-AGI라는 추론 벤치마크에서 87%. 같은 시점 OpenAI의 o3는 70%, 그 전 세대는 0%. 모델 크기 차이가 수만 배인데 결과는 작은 쪽이 이김
  • 왜 가능한가. 스도쿠처럼 “한 번에 못 풀고 단계를 밟아야 하는 문제”는 큰 LLM도 한 번 답을 뱉으면 끝이라 못 풂. 같은 모델을 16번 정도 다시 돌리며 답을 다듬는 구조가 더 잘 맞음
  • 이미 있는 우회법은 chain of thought(생각을 길게 풀어쓰면서 답을 다듬기). 단점은 매번 단어로 압축해야 해서 표현력이 떨어지고, 사람이 만든 풀이 데이터에 묶임
  • YC Decoded 팟캐스트, YC visiting partner François의 36분 대담. 2025년 발표된 HRM(Sapient AI, 27M 파라미터)과 후속 TRM(Alexia Jolicoeur-Martineau 단독, 7M 파라미터) 두 논문을 비교

LLM은 왜 어떤 문제는 절대 못 푸나?

  • 트랜스포머(LLM의 기본 구조)는 질문을 받으면 답을 한 번에 뱉어내고 끝남. 한 번 답하기 전까지 생각할 수 있는 횟수가 모델 안에 정해져 있음. 보통 그게 모델의 층(layer) 수
  • 엘리베이터로 비유. 30층 모델은 1층에서 30층까지 가면서 30번만 생각할 수 있는 엘리베이터. 도중에 더 멈춰서 생각하고 싶어도 못 함
  • 카드 정렬이 그 예. 카드 31장을 순서대로 줄 세우려면 카드끼리 한참 비교해 봐야 함. 그 비교 횟수가 모델의 생각 횟수보다 많으면 그냥 못 풂
  • 스도쿠도 같은 종류. 어떤 칸은 옆 칸이 채워져야 비로소 답이 보임. “한 칸 채우고 그 정보로 다음 칸 보고 또 채우고”가 여러 번 반복돼야 함. 한 방에 답이 안 나옴
  • 지금까지 LLM의 우회법은 두 가지. 답을 길게 풀어쓰면서 자기 출력을 다시 읽기(chain of thought), 또는 파이썬 sort 함수 같은 도구를 호출하기. 둘 다 사람이 이미 알아낸 풀이를 다시 출력하는 셈
  • 그래서 LLM이 “처음부터 새 정렬 알고리즘을 발견”하는 일은 일어나지 않음

HRM과 TRM은 무엇을 다르게 했나?

  • 핵심 발상. 작은 모델 하나를 두고 같은 모델을 16번이고 다시 부름. 매 호출마다 “메모장”을 갱신하면서 답에 가까워짐
  • 메모장은 두 종류. 하나는 “이 칸에 7이 들어갈지도?” 같은 임시 끄적임. 다른 하나는 “여기까지 확실히 채운 스도쿠 판” 같은 잠정 답안. 임시 끄적임을 굴리다가 좀 확신이 서면 잠정 답안에 채워 넣고, 그 답안을 보고 다시 끄적이는 식
  • 학습 트릭. 16번 호출한 걸 전부 거꾸로 추적해 가중치를 갱신하면 메모리 폭발. 그래서 마지막 한두 호출만 거꾸로 따라가서 갱신. 의외로 이걸로 충분
  • HRM(2024, Sapient AI). 2700만 파라미터. ARC-AGI 1에서 약 70%. 메모 갱신용 모델 하나 + 답안 갱신용 모델 하나, 두 개를 따로 둠
  • TRM(2025, Alexia 단독). 700만 파라미터로 87% 달성. HRM의 두 모델을 하나로 합치고(가중치 공유), 트랜스포머도 1층만 사용. 일부 과제에선 트랜스포머 대신 더 단순한 MLP가 더 좋게 나오기도 함
  • TRM의 추가 트릭. 거꾸로 따라가는 범위를 “한 호출”이 아니라 “한 사이클(메모→답안→메모) 전체”로 살짝 늘림. 그래서 모델은 더 작게 만들 수 있게 됨
항목HRM (2024)TRM (2025)
파라미터2700만700만
트랜스포머 층메모용 4층 + 답안용 4층1층 (한 모델 공유)
학습 시 거꾸로 추적 범위마지막 호출 1회마지막 한 사이클 전체
ARC-AGI 1 점수~70%87%
출처Sapient AI 팀Alexia Jolicoeur-Martineau

단어로 생각하기 vs 머릿속으로 생각하기

  • LLM의 chain of thought는 “공책에 단어로 적어가며 푸는 생각”. 매 단계가 한국어/영어 단어 한 줄로 옮겨져야 다음 단계로 넘어감
  • HRM·TRM은 “머릿속으로만 푸는 생각”. 굳이 단어로 안 옮기고 흐릿한 느낌이나 그림 상태로 다음 단계에 그대로 넘김
  • 차이의 비유. 단어로 옮기는 건 1m 자를 1cm 단위로만 끊어 쓰는 것. 머릿속으로만 굴리는 건 자를 안 끊고 연속으로 쓰는 것. 후자가 훨씬 더 미묘한 차이까지 담을 수 있음
  • 그래서 LLM은 사람이 이미 풀어둔 방식을 흉내내는 데서 잘 못 벗어남. 머릿속 재귀 모델은 사람이 한 번도 적어둔 적 없는 풀이도 스스로 찾아낼 가능성
  • 학습할 때 풀이 과정을 사람이 라벨로 안 줘도 됨. 모델이 알아서 메모 사용법을 익힘. 이게 큰 차이

이게 LLM 시대를 뒤엎나?

  • 한쪽으로 기우는 결론은 아님. HRM·TRM은 ARC-AGI나 스도쿠 같은 좁은 한 가지 task에 1000개 데이터로 처음부터 학습한 task-specific 모델. 일반 대화·코딩·번역은 못함
  • 반대로 LLM은 일반성에 강하지만 한 번 답 내기의 한계가 명확
  • 발표자 베팅. 큰 LLM 위에 재귀 구조를 얹는 조합이 다음 단계. Google에서 recursive language model이라는 이름으로 비슷한 시도가 이미 나오는 중. Gemini에도 일부 들어가 있을 가능성
  • 또 한 가지. 재귀 그 자체뿐 아니라 “마지막 답을 한 번 더 다듬는 단계”(외부 정제 루프)가 학습 성능을 크게 끌어올린다는 발견은 아직 이론적으로 잘 설명이 안 됨. 풀리면 더 큰 진전 가능

700만 파라미터가 트릴리언급 모델을 어떻게 이기나?

ARC-AGI는 일반 지식이 아니라 추상적 패턴 매칭에 가까워서, 데이터를 외워두는 LLM 강점이 거의 안 통함. 대신 “여러 번 시도해서 답으로 수렴”하는 재귀 구조가 직접적으로 이득. 700만이 작아 보이지만 추론 시 같은 가중치를 16번 호출하니 실제 계산 깊이는 훨씬 깊음. 작은 함수를 깊게 재귀 호출하는 것과 같음.

Chain of thought도 재귀 아닌가?

맞음. 다만 재귀가 일어나는 공간이 다름. CoT는 모델 출력을 단어로 만들었다가 다시 입력으로 받는 외부 재귀라 매 스텝 결과가 단어로 압축됨. HRM·TRM은 단어로 압축 안 하고 모델 안 메모(잠재 벡터)로만 굴려서 표현력이 큼. 또 CoT는 사람이 만든 풀이 트레이스가 학습 데이터에 있어야 잘 됨, 재귀 모델은 안 줘도 됨.

1인기업가가 이걸 직접 써볼 만한가?

아직은 아님. TRM은 한 가지 문제용 모델이라 코딩이나 글쓰기엔 못 씀. 다만 “내 좁은 비즈니스 문제에 1000개 데이터로 작은 모델을 직접 학습시키면 일반 LLM API보다 더 잘할 수 있다”는 신호로 읽으면 됨. 데이터가 손에 있는 1인기업가한테 점점 매력적인 길.

1인기업 관점

700만 파라미터가 트릴리언급 모델을 이긴다는 게 가장 중요한 신호 같음. 1인기업가가 자기 도메인에서 깨끗한 데이터 1000개 정도를 손에 쥐고 있으면, 거대 LLM API에 매번 비싸게 묻는 대신 작은 task-specific 모델을 직접 학습시키는 게 가능해지는 시대로 가는 듯. 특히 매일 같은 형식의 판단을 반복하는 자리(주문 분류, 답변 자동화, 인보이스 추출 같은 백오피스)는 좁고 단계가 정해진 문제라 재귀 모델이 잘 먹힐 자리지 않나 싶음.


관련: 강화학습의 아버지 Richard Sutton: LLM은 막다른 길Demis Hassabis YC 인터뷰: AGI까지 빠진 1~2가지도 같이 보면 좋습니다.

관련 글

뉴스레터 구독

매주 엄선된 1인기업 뉴스를 이메일로 받아보세요.