Essay 2년 안에 당신은 대체된다.
- 이 글을 통해 당신이 깨달을 것:
- model, data가 moat인 이유
- verify 가능한 tasks들은 다 대체된다
- Claude Code, Codex는 툴처럼 인간(파일럿)을 도와주는 copilot이고, CUA는 인간을 도와주는 툴이 아니라 인간을 “대체하는” autopilot임
- 지금까지 인간을 대체 못한 이유: 그러한 데이터가 없었기 때문
copilot과 autopilot
- copilot은 인간을 도와주는 AI이고, autopilot은 인간 대신 일하는, 즉 인간을 대체하는 AI에 가까움
- Claude Code, Codex 같은 코딩 agent는 아직 대부분 copilot에 가까움. 사람이 목표를 정하고, 파일을 읽히고, 결과를 검토하고, pilot처럼 방향을 잡아야 함
- OpenClaw, Hermes는 개개인의 personal assistant에 가까움. pro active하게 오늘 스케줄 기반으로 무엇을 해야 할지 알려주고, 나를 도와주는 개인 비서처럼 작동함
- 하지만 OpenClaw, Hermes가 회사에서 하는 workflow 같은 실제 업무를 끝까지 대신 해주는 worker는 아직 아님
- computer-use agents(CUA)는 그에 비해 personal worker 포지션에 가까움. 인간과 똑같이 스크린에서 화면을 보고, 이해하고, 마우스로 클릭함
- CUA는 실제로 일을 해주는 포지션, 즉 진짜 나를 대체할 수 있는 포지션으로 개발되고 있음
- 그럼 왜 지금까지 안 왔나. 답은 long horizon workflow가 너무 어렵기 때문임
| 구분 | 개인 비서형 agent | CUA worker |
|---|---|---|
| 핵심 역할 | 일정, 기억, 대화, 알림 | 실제 업무 수행 |
| 강한 영역 | 개인 생산성, 생활 보조 | 사무직 workflow 자동화 |
long horizon workflow
- long horizon workflow는 한두 번 클릭으로 끝나는 작업이 아니라, 여러 화면과 앱을 오가며 30단계, 50단계, 100단계 이상 이어지는 실제 업무 흐름임 (실제 내가 회사에서 일하는 것)
- CUA가 이 long horizon workflow를 할 수 있어야 진짜 인간을 대체하고 일을 할 수 있음
- 그런데 아직 CUA는 이러한 long horizon workflow를 못함
- 컴퓨터 조작은 텍스트 답변보다 훨씬 잔인함. 답변은 틀려도 다시 쓰면 되지만, 클릭은 한 번 잘못하면 화면 상태 자체가 바뀜
- 클릭 하나는 꽤 잘해도 30단계, 50단계, 100단계를 이어가면 작은 오류가 계속 쌓임. 개별 step 정확도가 높아도 전체 업무 성공률은 빠르게 무너짐
| 병목 | 왜 어려운가 | 근거 |
|---|---|---|
| GUI state 불안정 | 팝업, 로그인 풀림, 창 크기, 버튼 위치, 로딩 지연, 쿠키 배너처럼 화면 상태가 계속 바뀜 | WorldGUI는 grounding은 좋아졌지만 planning은 초기 상태 차이에 민감하다고 지적 |
| memory 흔들림 | 어떤 고객을 처리했는지, 어떤 폼을 채웠는지, 어떤 파일을 다운로드했는지, 현재 몇 번째 row인지 계속 추적해야 함 | UI-Copilot은 memory degradation, progress confusion, math hallucination을 문제로 봄 |
| workflow logic 부족 | 화면의 버튼은 찾지만, 법무나 ERP 같은 실제 workflow의 암묵적 순서와 예외 처리를 모르면 전체 task를 망침 | OS-Marathon은 sub-workflow logic, 시스템 필드 hallucination, 전체 trajectory 계획 문제가 두드러진다고 정리 |
| multi-app workflow | 이메일, 첨부 저장, Excel, ERP, PDF, 메신저 보고처럼 여러 앱을 넘나드는 일이 실제 사무직 업무임 | WindowsWorld는 leading CUA들이 multi-application task에서 21% 미만의 성공률을 보였다고 보고 |
| verifier 부족 | CUA를 RLVR로 학습시키려면 deterministic reward와 reset 가능한 환경이 필요하지만, 대규모로 만들기 어려움 | CUA-Gym은 deterministic reward를 가진 scalable training data 부족을 병목으로 봄 |
| noisy trajectory | synthetic rollout에는 틀린 action이 많아서 그대로 SFT하면 나쁜 행동까지 배울 수 있음 | WebSTAR는 step-level filtering과 graded step reward가 중요하다고 제안 |
그러면 CUA가 인간을 대체하려면 필요한 건 무엇인가?
- 첫 번째는 trajectory data임. trajectory data는 사람이 실제 업무를 처리할 때 어떤 화면을 보고, 어떤 순서로 클릭하고, 무엇을 입력하고, 어디서 판단했는지 남긴 행동 흐름 데이터임
- 두 번째는 이 trajectory data가 verified되었냐임. 단순히 화면을 녹화한 데이터가 아니라, 각 step이 맞는지 틀렸는지, 어떤 step이 recoverable error인지, 어디서부터 task가 망가졌는지, 중간 checkpoint가 어디인지 검증되어 있어야 함
- task가 verify되면 그것은 CUA가 할 수 있는 영역이 됨. 성공 여부를 판정할 수 있어야 모델을 반복 훈련시키고, 실패한 지점을 고치고, 같은 workflow를 다시 시도할 수 있기 때문임
- 충분한 RL training이 가능한 data가 쌓이면, verify 가능한 업무는 다 CUA가 할 것임
그럼 앞으로 moat는 어디에서 생길까?
- app level에서 생기는 moat는 점점 약해질 가능성이 큼. UI는 복제되고, 기능은 모델이 만들고, code gen과 content gen 비용은 계속 내려감
- 앞으로의 moat는 특정 workflow를 끝까지 수행하게 만드는 trajectory data에서 생길 듯함
- 특히 그 trajectory data가 verified되어 있고, verifier와 reset 가능한 environment까지 붙어 있으면 모델을 반복 훈련시킬 수 있음
- 즉 이러한 data를 가지고 있거나 만들어낼 수 있고, 그걸 RL로 잘 post-training할 수 있는 게 moat일 것임
- 아직까지 사람들은 CUA에 대해 크게 주목하지 않고 있지만, 앞으로 1년 내에 GPT-3.5급 impact가 CUA 모델을 통해 나올 거라 예상함
- 그리고 그 이후부터는 진짜 사람을 완전히 대체할 수 있다는 가시성이 더 돋보일 듯함
verify 가능한 task는 왜 대체되기 쉬운가?
성공 여부를 자동으로 확인할 수 있기 때문임. 모델이 여러 번 시도하고, verifier가 맞고 틀림을 채점하고, reset 가능한 환경에서 다시 훈련할 수 있으면 개선 속도가 빨라짐.
CUA가 개인 비서형 agent보다 더 위험한 이유는 무엇인가?
개인 비서형 agent는 주로 말과 기억으로 도와줌. 반면 CUA는 사람이 쓰는 화면에서 같은 버튼을 누르고 같은 폼을 채우기 때문에 실제 업무 대체에 더 직접적으로 닿음.
앱 레벨은 왜 진입장벽이 약해지나?
AI가 code gen과 content gen 비용을 계속 낮추면 앱 기능 자체는 빠르게 복제될 수 있음. 반대로 실제 업무 순서, 예외 처리, 검증 기준, 실패 복구 데이터는 쉽게 복제되지 않음.
1인기업 관점
내가 이걸 깨닫고 현재 만들고 있는 게 usedesktop임. 단순히 화면을 조작하는 앱이 아니라, CUA가 RL training을 할 수 있는 고품질 trajectory data와 verified data를 만들려는 쪽에 가까움. 결국 중요한 건 agent를 하나 더 붙이는 게 아니라, 인간의 실제 업무를 대체할 수 있을 만큼 좋은 training data를 계속 만들어낼 수 있느냐인 듯함.
관련: Prime Intellect: RL 환경의 GitHub를 만들다와 화면 녹화 1100만 시간으로 학습한 컴퓨터 에이전트도 같이 보면 좋음.
관련 글
더 빨리 만들수록 검증은 줄고 기능만 늘어난다
개발 속도가 빨라질수록 수요 검증은 밀리고 기능만 늘어나는 AI 슬롭 함정을 실사용 경험으로 정리.
AI 에이전트 메모리가 아직 함정인 이유: 가지치기 문제
Mem0·Zep·Supermemory·Letta·Cognee 비교. 범용 메모리가 안 풀리는 이유는 가지치기·인과 모델링. 1인기업이 쓸 현실적 대안은 환경에 기록 박기.
AI로 누구나 콘텐츠 만드는 시대, 1인기업은 무엇을 팔아야 하나
AI로 코드·글·영상 만드는 비용이 0에 가까워지는 시대, 1인기업이 살아남는 법. 금 캐러 가지 말고 옆에서 빵 파는 전략.
뉴스레터 구독
매주 엄선된 1인기업 뉴스를 이메일로 받아보세요.