2년 안에 당신은 대체된다. | 1인기업 뉴스 1incompany

이 글을 통해 당신이 깨달을 것:
model, data가 moat인 이유
verify 가능한 tasks들은 다 대체된다
Claude Code, Codex는 툴처럼 인간(파일럿)을 도와주는 copilot이고, CUA는 인간을 도와주는 툴이 아니라 인간을 “대체하는” autopilot임
지금까지 인간을 대체 못한 이유: 그러한 데이터가 없었기 때문

copilot과 autopilot

copilot은 인간을 도와주는 AI이고, autopilot은 인간 대신 일하는, 즉 인간을 대체하는 AI에 가까움
Claude Code, Codex 같은 코딩 agent는 아직 대부분 copilot에 가까움. 사람이 목표를 정하고, 파일을 읽히고, 결과를 검토하고, pilot처럼 방향을 잡아야 함
OpenClaw, Hermes는 개개인의 personal assistant에 가까움. pro active하게 오늘 스케줄 기반으로 무엇을 해야 할지 알려주고, 나를 도와주는 개인 비서처럼 작동함
하지만 OpenClaw, Hermes가 회사에서 하는 workflow 같은 실제 업무를 끝까지 대신 해주는 worker는 아직 아님
computer-use agents(CUA)는 그에 비해 personal worker 포지션에 가까움. 인간과 똑같이 스크린에서 화면을 보고, 이해하고, 마우스로 클릭함
CUA는 실제로 일을 해주는 포지션, 즉 진짜 나를 대체할 수 있는 포지션으로 개발되고 있음
그럼 왜 지금까지 안 왔나. 답은 long horizon workflow가 너무 어렵기 때문임

구분	개인 비서형 agent	CUA worker
핵심 역할	일정, 기억, 대화, 알림	실제 업무 수행
강한 영역	개인 생산성, 생활 보조	사무직 workflow 자동화

long horizon workflow

long horizon workflow는 한두 번 클릭으로 끝나는 작업이 아니라, 여러 화면과 앱을 오가며 30단계, 50단계, 100단계 이상 이어지는 실제 업무 흐름임 (실제 내가 회사에서 일하는 것)
CUA가 이 long horizon workflow를 할 수 있어야 진짜 인간을 대체하고 일을 할 수 있음
그런데 아직 CUA는 이러한 long horizon workflow를 못함
컴퓨터 조작은 텍스트 답변보다 훨씬 잔인함. 답변은 틀려도 다시 쓰면 되지만, 클릭은 한 번 잘못하면 화면 상태 자체가 바뀜
클릭 하나는 꽤 잘해도 30단계, 50단계, 100단계를 이어가면 작은 오류가 계속 쌓임. 개별 step 정확도가 높아도 전체 업무 성공률은 빠르게 무너짐

병목	왜 어려운가	근거
GUI state 불안정	팝업, 로그인 풀림, 창 크기, 버튼 위치, 로딩 지연, 쿠키 배너처럼 화면 상태가 계속 바뀜	WorldGUI는 grounding은 좋아졌지만 planning은 초기 상태 차이에 민감하다고 지적
memory 흔들림	어떤 고객을 처리했는지, 어떤 폼을 채웠는지, 어떤 파일을 다운로드했는지, 현재 몇 번째 row인지 계속 추적해야 함	UI-Copilot은 memory degradation, progress confusion, math hallucination을 문제로 봄
workflow logic 부족	화면의 버튼은 찾지만, 법무나 ERP 같은 실제 workflow의 암묵적 순서와 예외 처리를 모르면 전체 task를 망침	OS-Marathon은 sub-workflow logic, 시스템 필드 hallucination, 전체 trajectory 계획 문제가 두드러진다고 정리
multi-app workflow	이메일, 첨부 저장, Excel, ERP, PDF, 메신저 보고처럼 여러 앱을 넘나드는 일이 실제 사무직 업무임	WindowsWorld는 leading CUA들이 multi-application task에서 21% 미만의 성공률을 보였다고 보고
verifier 부족	CUA를 RLVR로 학습시키려면 deterministic reward와 reset 가능한 환경이 필요하지만, 대규모로 만들기 어려움	CUA-Gym은 deterministic reward를 가진 scalable training data 부족을 병목으로 봄
noisy trajectory	synthetic rollout에는 틀린 action이 많아서 그대로 SFT하면 나쁜 행동까지 배울 수 있음	WebSTAR는 step-level filtering과 graded step reward가 중요하다고 제안

그러면 CUA가 인간을 대체하려면 필요한 건 무엇인가?

첫 번째는 trajectory data임. trajectory data는 사람이 실제 업무를 처리할 때 어떤 화면을 보고, 어떤 순서로 클릭하고, 무엇을 입력하고, 어디서 판단했는지 남긴 행동 흐름 데이터임
두 번째는 이 trajectory data가 verified되었냐임. 단순히 화면을 녹화한 데이터가 아니라, 각 step이 맞는지 틀렸는지, 어떤 step이 recoverable error인지, 어디서부터 task가 망가졌는지, 중간 checkpoint가 어디인지 검증되어 있어야 함
task가 verify되면 그것은 CUA가 할 수 있는 영역이 됨. 성공 여부를 판정할 수 있어야 모델을 반복 훈련시키고, 실패한 지점을 고치고, 같은 workflow를 다시 시도할 수 있기 때문임
충분한 RL training이 가능한 data가 쌓이면, verify 가능한 업무는 다 CUA가 할 것임

그럼 앞으로 moat는 어디에서 생길까?

app level에서 생기는 moat는 점점 약해질 가능성이 큼. UI는 복제되고, 기능은 모델이 만들고, code gen과 content gen 비용은 계속 내려감
앞으로의 moat는 특정 workflow를 끝까지 수행하게 만드는 trajectory data에서 생길 듯함
특히 그 trajectory data가 verified되어 있고, verifier와 reset 가능한 environment까지 붙어 있으면 모델을 반복 훈련시킬 수 있음
즉 이러한 data를 가지고 있거나 만들어낼 수 있고, 그걸 RL로 잘 post-training할 수 있는 게 moat일 것임
아직까지 사람들은 CUA에 대해 크게 주목하지 않고 있지만, 앞으로 1년 내에 GPT-3.5급 impact가 CUA 모델을 통해 나올 거라 예상함
그리고 그 이후부터는 진짜 사람을 완전히 대체할 수 있다는 가시성이 더 돋보일 듯함

verify 가능한 task는 왜 대체되기 쉬운가?

성공 여부를 자동으로 확인할 수 있기 때문임. 모델이 여러 번 시도하고, verifier가 맞고 틀림을 채점하고, reset 가능한 환경에서 다시 훈련할 수 있으면 개선 속도가 빨라짐.

CUA가 개인 비서형 agent보다 더 위험한 이유는 무엇인가?

개인 비서형 agent는 주로 말과 기억으로 도와줌. 반면 CUA는 사람이 쓰는 화면에서 같은 버튼을 누르고 같은 폼을 채우기 때문에 실제 업무 대체에 더 직접적으로 닿음.

앱 레벨은 왜 진입장벽이 약해지나?

AI가 code gen과 content gen 비용을 계속 낮추면 앱 기능 자체는 빠르게 복제될 수 있음. 반대로 실제 업무 순서, 예외 처리, 검증 기준, 실패 복구 데이터는 쉽게 복제되지 않음.

1인기업 관점

내가 이걸 깨닫고 현재 만들고 있는 게 usedesktop임. 단순히 화면을 조작하는 앱이 아니라, CUA가 RL training을 할 수 있는 고품질 trajectory data와 verified data를 만들려는 쪽에 가까움. 결국 중요한 건 agent를 하나 더 붙이는 게 아니라, 인간의 실제 업무를 대체할 수 있을 만큼 좋은 training data를 계속 만들어낼 수 있느냐인 듯함.

Essay 2년 안에 당신은 대체된다.