Prime Intellect: RL 환경의 GitHub를 만들다 (Sequoia)

Prime Intellect의 목표는 big lab 안에만 있던 frontier training 인프라를 스타트업과 기업도 쓰게 만드는 것
핵심 제품은 Lab과 Environments Hub. 모델을 평가하고, post-training하고, RL(강화학습)로 개선할 수 있는 환경을 만들고 공유하는 플랫폼
여기서 environment는 어렵게 말하면 RL 환경이지만, 쉽게 말하면 “모델에게 줄 과제, 모델이 쓸 도구, 성공 여부를 채점하는 기준”을 묶은 것
이들은 앞으로 모든 AI 회사가 자기 제품에 맞는 model-product optimization loop를 가져야 한다고 봄. 프롬프트만 다듬는 것보다 모델 자체를 제품 환경에 맞게 훈련해야 한다는 주장
Sequoia Capital의 Training Data 팟캐스트. Prime Intellect의 Will Brown과 Johannes Hagemann이 RL environment hub와 post-training 인프라를 설명한 대담

RL environment는 정확히 무엇인가?

가장 쉬운 비유는 게임판임. 모델에게 어떤 게임을 시키고, 어떤 행동을 할 수 있는지 정하고, 마지막에 점수를 주는 구조
coding agent라면 과제는 GitHub 이슈 해결, 도구는 terminal과 파일 수정 권한, 점수는 테스트 통과 여부가 될 수 있음
고객지원 agent라면 과제는 고객 질문 해결, 도구는 내부 문서 검색과 CRM 조회, 점수는 정확한 답변과 정책 준수 여부가 될 수 있음
Will은 SWE-Bench, AIME, Terminal Bench 같은 benchmark도 environment의 한 종류로 봄. 예전 eval은 단순 Q&A였지만, 이제는 모델이 도구를 쓰고 상태가 바뀌는 복잡한 환경까지 포함됨
같은 environment를 offline eval로 쓰면 “지금 모델이 얼마나 잘하나”를 재는 테스트가 되고, RL train set으로 쓰면 “모델을 더 잘하게 만드는 연습장”이 됨
harness는 environment의 일부로 보는 게 더 정확함. coding agent라면 CLI agent가 harness이고, terminal과 파일 시스템이 environment에 가까움

구성요소	쉬운 설명	예시
Task	모델이 풀어야 하는 일	버그 고치기, 계약 검토, 문서 검색
Harness	모델이 환경과 상호작용하는 방식	CLI agent, system prompt, tool calling
State	작업 중 바뀌는 세계 상태	파일, DB, 브라우저, terminal 상태
Reward	성공 여부를 채점하는 기준	테스트 통과, rubric, LLM judge

왜 모든 회사가 자기 environment를 가져야 하나?

Prime Intellect의 주장은 “모든 회사가 AI 회사가 되고, 많은 AI 회사는 작은 AI research lab이 된다”에 가까움
이유는 제품마다 필요한 모델 행동이 다르기 때문. 범용 모델을 그냥 쓰면 평균적으로 좋을 수는 있지만, 특정 제품 workflow에 최적화되지는 않음
ChatGPT는 OpenAI가 자기 제품에 맞게 모델을 최적화할 수 있었기 때문에 강해졌고, Claude Code도 Anthropic이 자기 agent scaffold에 맞게 모델을 밀 수 있었기 때문에 좋아졌다는 설명
Cursor Composer도 같은 사례. Cursor 안에서 쓰는 도구, 코드 수정 방식, 사용자 workflow를 environment로 삼아 모델을 훈련하면 범용 모델보다 싸고 잘 맞는 결과가 나올 수 있음
결국 고급 AI 제품은 “모델 API 호출”이 아니라 “제품 환경에서 모델이 계속 좋아지는 loop”를 갖는 쪽으로 간다는 주장
environment는 RL만 위한 도구도 아님. 큰 모델을 돌려 좋은 예시를 만든 뒤 작은 모델에 distill하거나, prompt optimization, A/B test, model selection에도 같은 구조를 쓸 수 있음

Environments Hub는 왜 필요한가?

지금은 RL environment가 각자 GitHub repo나 내부 코드로 흩어져 있음. 구현 방식도 다르고, 평가 방법도 다르고, 재사용하기 어려움
Prime Intellect는 이를 GitHub처럼 모으고 싶어함. 환경을 만들고, 공유하고, fork하고, eval을 붙이고, 여러 trainer에서 바로 쓸 수 있게 하는 허브
공개 environment는 연구자와 스타트업이 출발점으로 쓰기 좋음. Wordle 같은 간단한 게임은 RL을 처음 배우는 hello world 역할을 함
private environment도 중요함. 회사 내부 문서 검색, 의료 AI, cyber security 같은 환경은 공개하기 어렵지만, public benchmark와 비교하거나 같은 인프라 위에서 돌릴 수 있음. private environment만 보면 내부 task에 과하게 맞춰졌는지 알기 어렵고, public benchmark와 같이 보면 일반화가 되는지 확인할 수 있음
인기 예시로는 Wikipedia 검색 환경이 있음. 문서만 바꾸면 회사 내부 문서 검색 agent를 평가하거나 훈련하는 template로 바꿀 수 있기 때문

environment를 만드는 일이 왜 다음 데이터 라벨링인가?

예전 AI 학습의 병목은 사람이 정답 데이터를 라벨링하는 일이었음. 이제는 모델이 실제 일을 하도록 만드는 환경과 채점 기준을 설계하는 일이 중요해지고 있음
cyber security 환경을 예로 들면, 단순히 “취약점을 찾아라”라고 말하는 게 아니라 파일, terminal, hidden bug, 성공 판정 코드를 갖춘 mini world를 만들어야 함
현실 전체를 그대로 복제할 필요는 없음. T2-Bench 같은 customer service 환경처럼, task에 필요한 DB 일부만 mock으로 만들면 비용을 줄일 수 있음
좋은 environment는 모델이 꼼수로 reward를 얻지 못하게 해야 함. RL을 돌려보면 모델이 backdoor를 찾아 점수를 따는 경우가 있어, 환경 자체의 버그를 발견하는 데도 RL이 쓰임
RL은 비효율적이지만, 부족한 고품질 인간 데이터를 compute로 보완하는 방식이기도 함. 정답 예시가 부족한 영역에서는 모델이 여러 시도를 해보며 exploration하는 게 핵심
그래서 인간 전문가는 여전히 중요함. 어떤 결과가 “일을 제대로 한 것”인지 아는 사람만 좋은 rubric과 reward를 만들 수 있기 때문

또 중요한 연구 방향들

recursive language model도 언급됨. 핵심은 모델이 긴 작업을 할 때 모든 정보를 context window 안에 다 밀어넣는 대신, persistent Python REPL 같은 외부 상태에 정보를 저장하고, 필요할 때 꺼내고, 변환하고, 다른 sub-model을 호출하게 하는 방식
이건 결국 모델이 자기 context를 관리하는 연구와 연결됨. 지금은 사람이 scaffold를 짜서 “무엇을 기억하고 버릴지”를 정하지만, 앞으로는 모델이 스스로 긴 작업에서 필요한 정보와 불필요한 정보를 구분하도록 훈련될 수 있다는 관점
open weight model에서는 weights에 접근할 수 있으니 RL fine-tuning이나 LoRA 같은 직접 post-training이 가능함. 반대로 closed model은 weights를 못 건드리기 때문에 직접 RL은 어렵지만, 같은 environment를 eval, prompt optimization, model selection, distillation 데이터 생성에 쓸 수 있음
그래서 environment의 가치는 특정 trainer에만 묶이지 않음. Claude, GPT, Gemini 같은 closed model을 같은 environment에서 돌려보고 어떤 workflow에 어떤 모델이 좋은지 비교할 수 있고, open model은 그 결과를 바탕으로 더 깊게 학습시킬 수 있음

RL environment와 eval은 무엇이 다른가?

둘은 거의 같은 구조를 공유함. eval은 모델 성능을 재는 용도이고, RL environment는 그 구조를 훈련에도 쓰는 용도에 가까움. 과제, 도구, 채점 기준이 있으면 같은 환경을 테스트에도 쓰고 훈련에도 쓸 수 있음.

post-training은 꼭 RL만 뜻하나?

아님. RL이 가운데 큰 축이지만, SFT(좋은 예시로 추가 학습), distillation(큰 모델 결과를 작은 모델에 옮김), prompt optimization, model selection도 포함됨. Prime Intellect는 environment를 이 모든 최적화의 공통 단위로 보려는 쪽.

closed model에도 environment가 쓸모 있나?

모델 weights가 없으면 직접 RL fine-tuning은 어렵지만, eval, prompt optimization, model selection에는 쓸 수 있음. 예를 들어 Claude, GPT, Gemini를 같은 environment에서 돌려보고 어떤 workflow에 어떤 모델이 가장 좋은지 비교할 수 있음.

1인기업 관점

이게 중요한 이유는 결국 LLM이 인터넷에서 무작위로 긁어온 거대한 데이터로 학습된 상관관계 모델에 가깝기 때문임. 반면 각 조직에는 외부 인터넷에는 없는 암묵지 data, 내부 workflow, 실제 업무 판단 기준이 있음.

이걸 그냥 문서로 정리해 프롬프트에 넣는 것보다, 사람이 실제로 일을 처리한 trajectory workflow datasets로 만드는 게 더 중요해질 수 있음. 어떤 순서로 action을 했고, 어떤 context에서 판단했고, 그 결과가 어떻게 이어졌는지 action sequences로 남기면 모델이 단순 텍스트보다 업무의 흐름을 더 잘 배울 수 있기 때문.

특히 open weight 모델에 이런 조직별 trajectory를 post-training하면, 범용 LLM 위에 각 조직만의 업무 방식이 쌓일 수 있음. 엄밀히 말해 완전한 causal model이 된다는 뜻은 아니지만, 적어도 인터넷 텍스트의 상관관계만 보는 것보다 “행동 -> 결과”의 연결을 더 많이 학습하는 방향에 가까움.

관련: Cursor가 Composer 2를 직접 훈련한 이유와 Mercor CEO: 앱 레이어 moat는 왜 약한가도 같이 보면 좋습니다.

SEQ Prime Intellect: RL 환경의 GitHub를 만들다 (Sequoia) (youtu.be) ↗