RL 시장은 왜 더 커질까 | 1인기업 뉴스 1incompany

앞으로 RL 시장은 더 커질 가능성이 큼. 이유는 frontier lab의 모델 출시 속도가 pretraining보다 post-training에서 더 빠르게 나오기 때문
엄밀히 말하면 pretraining이 사라진다는 뜻은 아님. 다만 사용자에게 보이는 성능 개선, reasoning 개선, agent 성능 개선은 점점 post-training과 RL에서 나오는 비중이 커지는 듯함
OpenAI도 o1 system card에서 o1 계열이 reinforcement learning으로 복잡한 reasoning을 학습한다고 설명했고, o1 near-final checkpoint 이후 release까지는 base model을 유지한 incremental post-training improvement가 있었다고 밝힘
DeepSeek-R1, Cursor Composer 2, Composer 2.5도 같은 방향의 신호임. verified task와 RL environment를 만들 수 있는 곳이 점점 중요해짐

왜 post-training의 ROI가 좋아지나?

pretraining은 모델의 뼈대를 새로 만드는 일에 가까움. 데이터도 크고, GPU도 많이 들고, 한 번 실패하면 비용이 큼
post-training은 이미 만들어진 base model을 특정 행동에 맞게 다듬는 쪽임. SFT(좋은 예시로 추가 학습), RL(보상으로 행동 개선), distillation(큰 모델의 능력을 작은 모델로 옮김)이 여기에 들어감
SFT는 쉽게 말하면 선생님이 답지를 보여주는 방식에 가까움. “이 상황에서는 이렇게 답하라”를 배우는 것임
full fine-tuning은 실제 model weight를 바꾸는 방식이고, LoRA는 adapter layer를 붙여 상대적으로 가볍게 조정하는 방식임
같은 돈을 썼을 때, pretraining으로 새 모델을 만드는 것보다 post-training으로 특정 제품이나 task에서 성능을 올리는 편이 ROI가 좋을 수 있음
특히 모델이 이미 충분히 똑똑해진 상태에서는 “더 많은 지식”보다 “이 환경에서 어떻게 행동해야 하는가”가 병목이 됨
OpenAI의 gpt-oss 설명도 post-training 단계에서 SFT와 high-compute RL을 사용해 reasoning과 tool use를 가르쳤다고 설명함

단계	쉬운 비유	비용 구조	잘하는 것
Pretraining	뇌 전체를 처음부터 키우기	매우 비쌈	넓은 지식과 일반 능력
SFT	좋은 예시를 보고 따라하기	상대적으로 쌈	말투, 형식, 기본 행동
RL	여러 번 시도하고 점수로 배우기	환경이 있으면 강함	reasoning, tool use, agent 행동
Distillation	큰 선생님을 작은 학생에게 옮기기	배포 비용 절감	작고 빠른 모델 만들기

왜 RL의 위상이 바뀌었나?

예전 RL은 inefficient하고 불안정한 기술로 많이 여겨졌음. SFT를 하고 마지막에 cherry on top처럼 조금 붙이는 정도로 보는 경우도 많았음
SFT가 이론 수업이라면 RL은 실무 경험에 가까움. 답지를 보고 배웠다고 바로 production에서 일을 잘하는 것은 아니기 때문
SFT는 선생이 정답지를 주면서 “이렇게 하라”고 가르치는 방식이고, RL은 실제 model/agent가 rollout, 즉 시행착오를 반복하면서 실무를 배우는 방식에 가까움
특정 domain에서 agent가 진짜 일을 잘하려면, 실제 환경에서 rollout(한 번의 시도)을 반복하고 verifier(채점기)에게 성공과 실패를 확인받아야 함
잘하면 reward를 받고, 못하면 reward를 못 받는 과정을 반복하면서 모델은 그 domain에서 어떤 행동이 먹히는지 학습함
그런데 2025년 DeepSeek-R1 이후 분위기가 바뀜. R1 논문은 human-labeled reasoning trajectory 없이도 pure RL로 reasoning pattern이 나타날 수 있다고 보여줌
Cursor도 Composer 2 technical report에서 Kimi K2.5 base model 위에 continued pretraining과 large-scale RL을 붙여 end-to-end agent performance를 개선했다고 설명함
Composer 2.5는 더 복잡한 RL environment와 targeted RL with textual feedback을 언급함. reward가 전체 rollout 하나에만 붙으면 어떤 결정이 문제였는지 알기 어렵기 때문임
즉 RL은 더 이상 마지막 장식이 아니라, agent가 실제 환경에서 행동을 배우는 핵심 훈련 루프가 되고 있음

왜 앱 레이어 회사도 RL을 보게 되나?

AI app 회사가 frontier API만 계속 쓰면 성능은 빠르게 얻지만, 사용량이 늘수록 API cost가 gross margin을 압박함
그래서 일정 규모 이상이 되면 자체 small model, routing, SFT, RL, eval stack을 고민할 수밖에 없음
Cursor가 Composer 2를 만든 것도 자체 harness에 맞는 모델이 필요했기 때문으로 볼 수 있음. 동시에 cost 압박도 큼. 사용량이 커질수록 frontier API만 쓰는 구조는 gross margin을 계속 갉아먹기 때문임
앞으로 한국 AI app들도 비슷한 압력을 받을 가능성이 큼. chat based AI app, character AI, 업무 agent, CUA app 모두 자기 domain에서 더 싸고 잘하는 모델을 원하게 될 듯함
이때 필요한 건 단순 fine-tuning 데이터가 아니라, 실제 KPI를 올리는지 확인할 수 있는 eval, verified trajectory, RL environment임

왜 다음 시장은 verified task인가?

LLM 다음 단계는 말하는 모델이 아니라 실행하는 모델임. coding agent, CUA(computer-use agent), physical AI, robotics가 여기에 들어감
이런 모델은 단순 SFT나 imitation learning만으로 한계가 큼. 사람 행동을 따라 하는 것만으로는 긴 workflow, 예외 처리, 실패 복구, tool use를 안정적으로 배우기 어려움
RL의 중요한 역할은 모델이 배운 것과 실제 업무 환경 사이의 mismatch를 줄이는 것임
pretraining과 SFT는 “무엇이 그럴듯한 답인지”를 배우게 하지만, 실제 업무에서는 버튼 위치, 파일 상태, 권한, 예외 상황, 고객별 규칙이 계속 달라짐
결국 모델이 여러 번 rollout을 하고, 어떤 결과가 좋은지 검증받고, 다시 policy를 고치는 RL loop가 필요함
문제는 RL 학습에 쓸 데이터가 부족하다는 점임. 그냥 데이터가 아니라 verified data가 필요함
verified data란 “이 trajectory가 성공했는가”, “어느 step에서 망가졌는가”, “이 task를 수천 번 반복했을 때 좋은 결과가 안정적으로 나오는가”를 확인할 수 있는 데이터임
task가 verify되면 모델은 그 영역을 반복해서 연습할 수 있음. 그래서 앞으로 기회는 데이터 라벨링보다 verified task, verifier, reset 가능한 environment를 만드는 쪽에서 커질 듯함

post-training은 fine-tuning과 같은 말인가요?

완전히 같은 말은 아님. fine-tuning은 post-training의 한 방식이고, post-training 안에는 SFT, RL, preference optimization, distillation, safety tuning 같은 여러 단계가 들어갈 수 있음.

왜 verified data가 그렇게 중요한가요?

RL은 모델에게 여러 번 시도하게 하고 결과로 배우게 하는 방식임. 그런데 결과가 맞는지 틀린지 확인할 수 없으면 보상을 줄 수 없음. 그래서 수천 번 rollout해도 자동으로 채점 가능한 task가 중요해짐.

CUA와 physical AI도 RL이 필요한가요?

필요해질 가능성이 큼. 화면 조작이나 로봇 행동은 한 번 틀리면 상태가 바뀌고, 긴 작업에서는 작은 실수가 누적됨. 그래서 단순히 사람 행동을 따라 하는 것보다, 실패하고 복구하면서 좋아지는 RL loop가 중요해질 듯함.

1인기업 관점

내 기준에서는 RL 시장이 커진다는 말이 곧 “verified task 시장이 열린다”는 말처럼 들림. usedesktop이 보는 자리도 여기임. SFT가 이론 수업이고 RL이 실무 경험이라면, CUA가 실제 업무를 하려면 좋은 base model보다 수천 번 rollout하고 검증할 수 있는 고품질 trajectory와 verifier가 더 병목이 될 가능성이 큼.

관련: 2년 안에 당신은 대체된다와 Cursor가 Composer 2를 직접 훈련한 이유도 같이 보면 좋음.

Essay RL 시장은 왜 더 커질까