Essay 2년 안에 당신은 대체된다.

|
공유
  • 이 글을 통해 당신이 깨달을 것:
  • model, data가 moat인 이유
  • verify 가능한 tasks들은 다 대체된다
  • Claude Code, Codex는 툴처럼 인간(파일럿)을 도와주는 copilot이고, CUA는 인간을 도와주는 툴이 아니라 인간을 “대체하는” autopilot임
  • 지금까지 인간을 대체 못한 이유: 그러한 데이터가 없었기 때문

copilot과 autopilot

  • copilot은 인간을 도와주는 AI이고, autopilot은 인간 대신 일하는, 즉 인간을 대체하는 AI에 가까움
  • Claude Code, Codex 같은 코딩 agent는 아직 대부분 copilot에 가까움. 사람이 목표를 정하고, 파일을 읽히고, 결과를 검토하고, pilot처럼 방향을 잡아야 함
  • OpenClaw, Hermes는 개개인의 personal assistant에 가까움. pro active하게 오늘 스케줄 기반으로 무엇을 해야 할지 알려주고, 나를 도와주는 개인 비서처럼 작동함
  • 하지만 OpenClaw, Hermes가 회사에서 하는 workflow 같은 실제 업무를 끝까지 대신 해주는 worker는 아직 아님
  • computer-use agents(CUA)는 그에 비해 personal worker 포지션에 가까움. 인간과 똑같이 스크린에서 화면을 보고, 이해하고, 마우스로 클릭함
  • CUA는 실제로 일을 해주는 포지션, 즉 진짜 나를 대체할 수 있는 포지션으로 개발되고 있음
  • 그럼 왜 지금까지 안 왔나. 답은 long horizon workflow가 너무 어렵기 때문임
구분개인 비서형 agentCUA worker
핵심 역할일정, 기억, 대화, 알림실제 업무 수행
강한 영역개인 생산성, 생활 보조사무직 workflow 자동화

long horizon workflow

  • long horizon workflow는 한두 번 클릭으로 끝나는 작업이 아니라, 여러 화면과 앱을 오가며 30단계, 50단계, 100단계 이상 이어지는 실제 업무 흐름임 (실제 내가 회사에서 일하는 것)
  • CUA가 이 long horizon workflow를 할 수 있어야 진짜 인간을 대체하고 일을 할 수 있음
  • 그런데 아직 CUA는 이러한 long horizon workflow를 못함
  • 컴퓨터 조작은 텍스트 답변보다 훨씬 잔인함. 답변은 틀려도 다시 쓰면 되지만, 클릭은 한 번 잘못하면 화면 상태 자체가 바뀜
  • 클릭 하나는 꽤 잘해도 30단계, 50단계, 100단계를 이어가면 작은 오류가 계속 쌓임. 개별 step 정확도가 높아도 전체 업무 성공률은 빠르게 무너짐
병목왜 어려운가근거
GUI state 불안정팝업, 로그인 풀림, 창 크기, 버튼 위치, 로딩 지연, 쿠키 배너처럼 화면 상태가 계속 바뀜WorldGUI는 grounding은 좋아졌지만 planning은 초기 상태 차이에 민감하다고 지적
memory 흔들림어떤 고객을 처리했는지, 어떤 폼을 채웠는지, 어떤 파일을 다운로드했는지, 현재 몇 번째 row인지 계속 추적해야 함UI-Copilot은 memory degradation, progress confusion, math hallucination을 문제로 봄
workflow logic 부족화면의 버튼은 찾지만, 법무나 ERP 같은 실제 workflow의 암묵적 순서와 예외 처리를 모르면 전체 task를 망침OS-Marathon은 sub-workflow logic, 시스템 필드 hallucination, 전체 trajectory 계획 문제가 두드러진다고 정리
multi-app workflow이메일, 첨부 저장, Excel, ERP, PDF, 메신저 보고처럼 여러 앱을 넘나드는 일이 실제 사무직 업무임WindowsWorld는 leading CUA들이 multi-application task에서 21% 미만의 성공률을 보였다고 보고
verifier 부족CUA를 RLVR로 학습시키려면 deterministic reward와 reset 가능한 환경이 필요하지만, 대규모로 만들기 어려움CUA-Gym은 deterministic reward를 가진 scalable training data 부족을 병목으로 봄
noisy trajectorysynthetic rollout에는 틀린 action이 많아서 그대로 SFT하면 나쁜 행동까지 배울 수 있음WebSTAR는 step-level filtering과 graded step reward가 중요하다고 제안

그러면 CUA가 인간을 대체하려면 필요한 건 무엇인가?

  • 첫 번째는 trajectory data임. trajectory data는 사람이 실제 업무를 처리할 때 어떤 화면을 보고, 어떤 순서로 클릭하고, 무엇을 입력하고, 어디서 판단했는지 남긴 행동 흐름 데이터임
  • 두 번째는 이 trajectory data가 verified되었냐임. 단순히 화면을 녹화한 데이터가 아니라, 각 step이 맞는지 틀렸는지, 어떤 step이 recoverable error인지, 어디서부터 task가 망가졌는지, 중간 checkpoint가 어디인지 검증되어 있어야 함
  • task가 verify되면 그것은 CUA가 할 수 있는 영역이 됨. 성공 여부를 판정할 수 있어야 모델을 반복 훈련시키고, 실패한 지점을 고치고, 같은 workflow를 다시 시도할 수 있기 때문임
  • 충분한 RL training이 가능한 data가 쌓이면, verify 가능한 업무는 다 CUA가 할 것임

그럼 앞으로 moat는 어디에서 생길까?

  • app level에서 생기는 moat는 점점 약해질 가능성이 큼. UI는 복제되고, 기능은 모델이 만들고, code gen과 content gen 비용은 계속 내려감
  • 앞으로의 moat는 특정 workflow를 끝까지 수행하게 만드는 trajectory data에서 생길 듯함
  • 특히 그 trajectory data가 verified되어 있고, verifier와 reset 가능한 environment까지 붙어 있으면 모델을 반복 훈련시킬 수 있음
  • 즉 이러한 data를 가지고 있거나 만들어낼 수 있고, 그걸 RL로 잘 post-training할 수 있는 게 moat일 것임
  • 아직까지 사람들은 CUA에 대해 크게 주목하지 않고 있지만, 앞으로 1년 내에 GPT-3.5급 impact가 CUA 모델을 통해 나올 거라 예상함
  • 그리고 그 이후부터는 진짜 사람을 완전히 대체할 수 있다는 가시성이 더 돋보일 듯함

verify 가능한 task는 왜 대체되기 쉬운가?

성공 여부를 자동으로 확인할 수 있기 때문임. 모델이 여러 번 시도하고, verifier가 맞고 틀림을 채점하고, reset 가능한 환경에서 다시 훈련할 수 있으면 개선 속도가 빨라짐.

CUA가 개인 비서형 agent보다 더 위험한 이유는 무엇인가?

개인 비서형 agent는 주로 말과 기억으로 도와줌. 반면 CUA는 사람이 쓰는 화면에서 같은 버튼을 누르고 같은 폼을 채우기 때문에 실제 업무 대체에 더 직접적으로 닿음.

앱 레벨은 왜 진입장벽이 약해지나?

AI가 code gen과 content gen 비용을 계속 낮추면 앱 기능 자체는 빠르게 복제될 수 있음. 반대로 실제 업무 순서, 예외 처리, 검증 기준, 실패 복구 데이터는 쉽게 복제되지 않음.

1인기업 관점

내가 이걸 깨닫고 현재 만들고 있는 게 usedesktop임. 단순히 화면을 조작하는 앱이 아니라, CUA가 RL training을 할 수 있는 고품질 trajectory data와 verified data를 만들려는 쪽에 가까움. 결국 중요한 건 agent를 하나 더 붙이는 게 아니라, 인간의 실제 업무를 대체할 수 있을 만큼 좋은 training data를 계속 만들어낼 수 있느냐인 듯함.


관련: Prime Intellect: RL 환경의 GitHub를 만들다화면 녹화 1100만 시간으로 학습한 컴퓨터 에이전트도 같이 보면 좋음.

관련 글

뉴스레터 구독

매주 엄선된 1인기업 뉴스를 이메일로 받아보세요.