Prime Intellect: RL 환경의 GitHub를 만들다 (Sequoia) (youtu.be) ↗
- Prime Intellect의 목표는 big lab 안에만 있던 frontier training 인프라를 스타트업과 기업도 쓰게 만드는 것
- 핵심 제품은 Lab과 Environments Hub. 모델을 평가하고, post-training하고, RL(강화학습)로 개선할 수 있는 환경을 만들고 공유하는 플랫폼
- 여기서 environment는 어렵게 말하면 RL 환경이지만, 쉽게 말하면 “모델에게 줄 과제, 모델이 쓸 도구, 성공 여부를 채점하는 기준”을 묶은 것
- 이들은 앞으로 모든 AI 회사가 자기 제품에 맞는 model-product optimization loop를 가져야 한다고 봄. 프롬프트만 다듬는 것보다 모델 자체를 제품 환경에 맞게 훈련해야 한다는 주장
- Sequoia Capital의 Training Data 팟캐스트. Prime Intellect의 Will Brown과 Johannes Hagemann이 RL environment hub와 post-training 인프라를 설명한 대담
RL environment는 정확히 무엇인가?
- 가장 쉬운 비유는 게임판임. 모델에게 어떤 게임을 시키고, 어떤 행동을 할 수 있는지 정하고, 마지막에 점수를 주는 구조
- coding agent라면 과제는 GitHub 이슈 해결, 도구는 terminal과 파일 수정 권한, 점수는 테스트 통과 여부가 될 수 있음
- 고객지원 agent라면 과제는 고객 질문 해결, 도구는 내부 문서 검색과 CRM 조회, 점수는 정확한 답변과 정책 준수 여부가 될 수 있음
- Will은 SWE-Bench, AIME, Terminal Bench 같은 benchmark도 environment의 한 종류로 봄. 예전 eval은 단순 Q&A였지만, 이제는 모델이 도구를 쓰고 상태가 바뀌는 복잡한 환경까지 포함됨
- 같은 environment를 offline eval로 쓰면 “지금 모델이 얼마나 잘하나”를 재는 테스트가 되고, RL train set으로 쓰면 “모델을 더 잘하게 만드는 연습장”이 됨
- harness는 environment의 일부로 보는 게 더 정확함. coding agent라면 CLI agent가 harness이고, terminal과 파일 시스템이 environment에 가까움
| 구성요소 | 쉬운 설명 | 예시 |
|---|---|---|
| Task | 모델이 풀어야 하는 일 | 버그 고치기, 계약 검토, 문서 검색 |
| Harness | 모델이 환경과 상호작용하는 방식 | CLI agent, system prompt, tool calling |
| State | 작업 중 바뀌는 세계 상태 | 파일, DB, 브라우저, terminal 상태 |
| Reward | 성공 여부를 채점하는 기준 | 테스트 통과, rubric, LLM judge |
왜 모든 회사가 자기 environment를 가져야 하나?
- Prime Intellect의 주장은 “모든 회사가 AI 회사가 되고, 많은 AI 회사는 작은 AI research lab이 된다”에 가까움
- 이유는 제품마다 필요한 모델 행동이 다르기 때문. 범용 모델을 그냥 쓰면 평균적으로 좋을 수는 있지만, 특정 제품 workflow에 최적화되지는 않음
- ChatGPT는 OpenAI가 자기 제품에 맞게 모델을 최적화할 수 있었기 때문에 강해졌고, Claude Code도 Anthropic이 자기 agent scaffold에 맞게 모델을 밀 수 있었기 때문에 좋아졌다는 설명
- Cursor Composer도 같은 사례. Cursor 안에서 쓰는 도구, 코드 수정 방식, 사용자 workflow를 environment로 삼아 모델을 훈련하면 범용 모델보다 싸고 잘 맞는 결과가 나올 수 있음
- 결국 고급 AI 제품은 “모델 API 호출”이 아니라 “제품 환경에서 모델이 계속 좋아지는 loop”를 갖는 쪽으로 간다는 주장
- environment는 RL만 위한 도구도 아님. 큰 모델을 돌려 좋은 예시를 만든 뒤 작은 모델에 distill하거나, prompt optimization, A/B test, model selection에도 같은 구조를 쓸 수 있음
Environments Hub는 왜 필요한가?
- 지금은 RL environment가 각자 GitHub repo나 내부 코드로 흩어져 있음. 구현 방식도 다르고, 평가 방법도 다르고, 재사용하기 어려움
- Prime Intellect는 이를 GitHub처럼 모으고 싶어함. 환경을 만들고, 공유하고, fork하고, eval을 붙이고, 여러 trainer에서 바로 쓸 수 있게 하는 허브
- 공개 environment는 연구자와 스타트업이 출발점으로 쓰기 좋음. Wordle 같은 간단한 게임은 RL을 처음 배우는 hello world 역할을 함
- private environment도 중요함. 회사 내부 문서 검색, 의료 AI, cyber security 같은 환경은 공개하기 어렵지만, public benchmark와 비교하거나 같은 인프라 위에서 돌릴 수 있음. private environment만 보면 내부 task에 과하게 맞춰졌는지 알기 어렵고, public benchmark와 같이 보면 일반화가 되는지 확인할 수 있음
- 인기 예시로는 Wikipedia 검색 환경이 있음. 문서만 바꾸면 회사 내부 문서 검색 agent를 평가하거나 훈련하는 template로 바꿀 수 있기 때문
environment를 만드는 일이 왜 다음 데이터 라벨링인가?
- 예전 AI 학습의 병목은 사람이 정답 데이터를 라벨링하는 일이었음. 이제는 모델이 실제 일을 하도록 만드는 환경과 채점 기준을 설계하는 일이 중요해지고 있음
- cyber security 환경을 예로 들면, 단순히 “취약점을 찾아라”라고 말하는 게 아니라 파일, terminal, hidden bug, 성공 판정 코드를 갖춘 mini world를 만들어야 함
- 현실 전체를 그대로 복제할 필요는 없음. T2-Bench 같은 customer service 환경처럼, task에 필요한 DB 일부만 mock으로 만들면 비용을 줄일 수 있음
- 좋은 environment는 모델이 꼼수로 reward를 얻지 못하게 해야 함. RL을 돌려보면 모델이 backdoor를 찾아 점수를 따는 경우가 있어, 환경 자체의 버그를 발견하는 데도 RL이 쓰임
- RL은 비효율적이지만, 부족한 고품질 인간 데이터를 compute로 보완하는 방식이기도 함. 정답 예시가 부족한 영역에서는 모델이 여러 시도를 해보며 exploration하는 게 핵심
- 그래서 인간 전문가는 여전히 중요함. 어떤 결과가 “일을 제대로 한 것”인지 아는 사람만 좋은 rubric과 reward를 만들 수 있기 때문
또 중요한 연구 방향들
- recursive language model도 언급됨. 핵심은 모델이 긴 작업을 할 때 모든 정보를 context window 안에 다 밀어넣는 대신, persistent Python REPL 같은 외부 상태에 정보를 저장하고, 필요할 때 꺼내고, 변환하고, 다른 sub-model을 호출하게 하는 방식
- 이건 결국 모델이 자기 context를 관리하는 연구와 연결됨. 지금은 사람이 scaffold를 짜서 “무엇을 기억하고 버릴지”를 정하지만, 앞으로는 모델이 스스로 긴 작업에서 필요한 정보와 불필요한 정보를 구분하도록 훈련될 수 있다는 관점
- open weight model에서는 weights에 접근할 수 있으니 RL fine-tuning이나 LoRA 같은 직접 post-training이 가능함. 반대로 closed model은 weights를 못 건드리기 때문에 직접 RL은 어렵지만, 같은 environment를 eval, prompt optimization, model selection, distillation 데이터 생성에 쓸 수 있음
- 그래서 environment의 가치는 특정 trainer에만 묶이지 않음. Claude, GPT, Gemini 같은 closed model을 같은 environment에서 돌려보고 어떤 workflow에 어떤 모델이 좋은지 비교할 수 있고, open model은 그 결과를 바탕으로 더 깊게 학습시킬 수 있음
RL environment와 eval은 무엇이 다른가?
둘은 거의 같은 구조를 공유함. eval은 모델 성능을 재는 용도이고, RL environment는 그 구조를 훈련에도 쓰는 용도에 가까움. 과제, 도구, 채점 기준이 있으면 같은 환경을 테스트에도 쓰고 훈련에도 쓸 수 있음.
post-training은 꼭 RL만 뜻하나?
아님. RL이 가운데 큰 축이지만, SFT(좋은 예시로 추가 학습), distillation(큰 모델 결과를 작은 모델에 옮김), prompt optimization, model selection도 포함됨. Prime Intellect는 environment를 이 모든 최적화의 공통 단위로 보려는 쪽.
closed model에도 environment가 쓸모 있나?
모델 weights가 없으면 직접 RL fine-tuning은 어렵지만, eval, prompt optimization, model selection에는 쓸 수 있음. 예를 들어 Claude, GPT, Gemini를 같은 environment에서 돌려보고 어떤 workflow에 어떤 모델이 가장 좋은지 비교할 수 있음.
1인기업 관점
이게 중요한 이유는 결국 LLM이 인터넷에서 무작위로 긁어온 거대한 데이터로 학습된 상관관계 모델에 가깝기 때문임. 반면 각 조직에는 외부 인터넷에는 없는 암묵지 data, 내부 workflow, 실제 업무 판단 기준이 있음.
이걸 그냥 문서로 정리해 프롬프트에 넣는 것보다, 사람이 실제로 일을 처리한 trajectory workflow datasets로 만드는 게 더 중요해질 수 있음. 어떤 순서로 action을 했고, 어떤 context에서 판단했고, 그 결과가 어떻게 이어졌는지 action sequences로 남기면 모델이 단순 텍스트보다 업무의 흐름을 더 잘 배울 수 있기 때문.
특히 open weight 모델에 이런 조직별 trajectory를 post-training하면, 범용 LLM 위에 각 조직만의 업무 방식이 쌓일 수 있음. 엄밀히 말해 완전한 causal model이 된다는 뜻은 아니지만, 적어도 인터넷 텍스트의 상관관계만 보는 것보다 “행동 -> 결과”의 연결을 더 많이 학습하는 방향에 가까움.
관련: Cursor가 Composer 2를 직접 훈련한 이유와 Mercor CEO: 앱 레이어 moat는 왜 약한가도 같이 보면 좋습니다.
관련 글
Cursor가 Composer 2를 직접 훈련한 이유: Sequoia
Cursor가 전용 코딩 모델 Composer 2를 만든 이유와 RL 인프라를 1인기업 관점에서 쉽게 정리.
Andrej Karpathy: vibe coding에서 agentic engineering으로
Sequoia AI Ascent에서 Karpathy가 풀어놓은 12월 전환점, Software 3.0, 들쭉날쭉한 AI 능력, 그리고 1인기업이 바로 적용할 만한 부분 정리.
AI 에이전트 도입은 대형 조직에 더 위험하다: George Hotz
George Hotz가 말하는 AI 에이전트와 소프트웨어 품질 문제. 1인기업은 언제 써야 할지 가르는 기준이 중요함.
뉴스레터 구독
매주 엄선된 1인기업 뉴스를 이메일로 받아보세요.