Essay RL 시장은 왜 더 커질까
- 앞으로 RL 시장은 더 커질 가능성이 큼. 이유는 frontier lab의 모델 출시 속도가 pretraining보다 post-training에서 더 빠르게 나오기 때문
- 엄밀히 말하면 pretraining이 사라진다는 뜻은 아님. 다만 사용자에게 보이는 성능 개선, reasoning 개선, agent 성능 개선은 점점 post-training과 RL에서 나오는 비중이 커지는 듯함
- OpenAI도 o1 system card에서 o1 계열이 reinforcement learning으로 복잡한 reasoning을 학습한다고 설명했고, o1 near-final checkpoint 이후 release까지는 base model을 유지한 incremental post-training improvement가 있었다고 밝힘
- DeepSeek-R1, Cursor Composer 2, Composer 2.5도 같은 방향의 신호임. verified task와 RL environment를 만들 수 있는 곳이 점점 중요해짐
왜 post-training의 ROI가 좋아지나?
- pretraining은 모델의 뼈대를 새로 만드는 일에 가까움. 데이터도 크고, GPU도 많이 들고, 한 번 실패하면 비용이 큼
- post-training은 이미 만들어진 base model을 특정 행동에 맞게 다듬는 쪽임. SFT(좋은 예시로 추가 학습), RL(보상으로 행동 개선), distillation(큰 모델의 능력을 작은 모델로 옮김)이 여기에 들어감
- 같은 돈을 썼을 때, pretraining으로 새 모델을 만드는 것보다 post-training으로 특정 제품이나 task에서 성능을 올리는 편이 ROI가 좋을 수 있음
- 특히 모델이 이미 충분히 똑똑해진 상태에서는 “더 많은 지식”보다 “이 환경에서 어떻게 행동해야 하는가”가 병목이 됨
- OpenAI의 gpt-oss 설명도 post-training 단계에서 SFT와 high-compute RL을 사용해 reasoning과 tool use를 가르쳤다고 설명함
| 단계 | 쉬운 비유 | 비용 구조 | 잘하는 것 |
|---|---|---|---|
| Pretraining | 뇌 전체를 처음부터 키우기 | 매우 비쌈 | 넓은 지식과 일반 능력 |
| SFT | 좋은 예시를 보고 따라하기 | 상대적으로 쌈 | 말투, 형식, 기본 행동 |
| RL | 여러 번 시도하고 점수로 배우기 | 환경이 있으면 강함 | reasoning, tool use, agent 행동 |
| Distillation | 큰 선생님을 작은 학생에게 옮기기 | 배포 비용 절감 | 작고 빠른 모델 만들기 |
왜 RL의 위상이 바뀌었나?
- 예전 RL은 inefficient하고 불안정한 기술로 많이 여겨졌음. SFT를 하고 마지막에 cherry on top처럼 조금 붙이는 정도로 보는 경우도 많았음
- 그런데 2025년 DeepSeek-R1 이후 분위기가 바뀜. R1 논문은 human-labeled reasoning trajectory 없이도 pure RL로 reasoning pattern이 나타날 수 있다고 보여줌
- Cursor도 Composer 2 technical report에서 Kimi K2.5 base model 위에 continued pretraining과 large-scale RL을 붙여 end-to-end agent performance를 개선했다고 설명함
- Composer 2.5는 더 복잡한 RL environment와 targeted RL with textual feedback을 언급함. reward가 전체 rollout 하나에만 붙으면 어떤 결정이 문제였는지 알기 어렵기 때문임
- 즉 RL은 더 이상 마지막 장식이 아니라, agent가 실제 환경에서 행동을 배우는 핵심 훈련 루프가 되고 있음
왜 다음 시장은 verified task인가?
- LLM 다음 단계는 말하는 모델이 아니라 실행하는 모델임. coding agent, CUA(computer-use agent), physical AI, robotics가 여기에 들어감
- 이런 모델은 단순 SFT나 imitation learning만으로 한계가 큼. 사람 행동을 따라 하는 것만으로는 긴 workflow, 예외 처리, 실패 복구, tool use를 안정적으로 배우기 어려움
- 결국 모델이 여러 번 rollout을 하고, 어떤 결과가 좋은지 검증받고, 다시 policy를 고치는 RL loop가 필요함
- 문제는 RL 학습에 쓸 데이터가 부족하다는 점임. 그냥 데이터가 아니라 verified data가 필요함
- verified data란 “이 trajectory가 성공했는가”, “어느 step에서 망가졌는가”, “이 task를 수천 번 반복했을 때 좋은 결과가 안정적으로 나오는가”를 확인할 수 있는 데이터임
- task가 verify되면 모델은 그 영역을 반복해서 연습할 수 있음. 그래서 앞으로 기회는 데이터 라벨링보다 verified task, verifier, reset 가능한 environment를 만드는 쪽에서 커질 듯함
post-training은 fine-tuning과 같은 말인가요?
완전히 같은 말은 아님. fine-tuning은 post-training의 한 방식이고, post-training 안에는 SFT, RL, preference optimization, distillation, safety tuning 같은 여러 단계가 들어갈 수 있음.
왜 verified data가 그렇게 중요한가요?
RL은 모델에게 여러 번 시도하게 하고 결과로 배우게 하는 방식임. 그런데 결과가 맞는지 틀린지 확인할 수 없으면 보상을 줄 수 없음. 그래서 수천 번 rollout해도 자동으로 채점 가능한 task가 중요해짐.
CUA와 physical AI도 RL이 필요한가요?
필요해질 가능성이 큼. 화면 조작이나 로봇 행동은 한 번 틀리면 상태가 바뀌고, 긴 작업에서는 작은 실수가 누적됨. 그래서 단순히 사람 행동을 따라 하는 것보다, 실패하고 복구하면서 좋아지는 RL loop가 중요해질 듯함.
1인기업 관점
내 기준에서는 RL 시장이 커진다는 말이 곧 “verified task 시장이 열린다”는 말처럼 들림. usedesktop이 보는 자리도 여기임. CUA가 실제 업무를 하려면 좋은 base model보다, 수천 번 rollout하고 검증할 수 있는 고품질 trajectory와 verifier가 더 병목이 될 가능성이 큼.
관련: 2년 안에 당신은 대체된다와 Cursor가 Composer 2를 직접 훈련한 이유도 같이 보면 좋음.
관련 글
스타트업은 경쟁하지 말고 병목을 팔아야 한다
AI 시대 1인기업·스타트업이 대기업과 정면 경쟁하지 않고 병목을 파는 전략.
Databricks CEO: AI에는 context가 필요하다
Databricks CEO가 말한 AI agent와 데이터 전략. 1인기업도 모델보다 context와 비용 통제를 봐야 함.
Meta AI의 다음 승부: Muse Spark와 개인 agent
Alexandr Wang이 말한 Meta AI 전략. 1인기업이 agent, open source, small business 기회를 볼 때 참고할 인터뷰.
뉴스레터 구독
매주 엄선된 1인기업 뉴스를 이메일로 받아보세요.