Sierra CEO: 오픈 모델과 $100K 토큰 예산: 20VC

Sierra는 foundation model을 직접 pre-training하지 않기로 했음. 자본이 많이 들고 금방 낡는 숫자 덩어리를 직접 만드는 일은 일부 회사만 가능한 게임이라는 판단
Clay Bavor의 결론은 open model과 frontier model 중 하나가 이기는 그림이 아님. 어려운 일은 frontier, 반복 업무는 fine-tuned open weight로 나뉘는 구조에 가까움
reasoning model 때문에 token 비용은 단순히 내려가기만 하지 않음. 모델이 더 오래 생각할수록 더 똑똑해지는 영역이 생기면서 inference 사용량 자체가 커짐
AI를 깊게 쓰는 top engineer는 연간 $100,000 이상을 token에 쓰는 run rate도 보인다고 언급됨. 미래에는 연봉, 주식 보상, token budget이 함께 잡힐 수 있다는 관점
20VC 인터뷰. Google에서 18년 일한 Clay Bavor가 Bret Taylor와 Sierra를 만든 이유, enterprise agent, AI-native hiring을 설명한 대담

Sierra는 왜 foundation model을 직접 만들지 않았나?

2022년 말, 2023년 초에는 AI startup이 직접 foundation model을 만들지 않으면 진지하게 보이지 않는 분위기가 있었음
Sierra도 잠깐 검토했지만 금방 버렸다고 함. 거대한 cluster로 pre-training을 돌리는 건 계속 돈이 들어가고, 모델은 빠르게 낡기 때문
Clay는 이를 “highly perishable bag of floating point numbers”에 가깝게 표현함. 쉽게 말하면 비싼 신선식품 같은 자산이라는 뜻
대신 Sierra는 lab과 hyperscaler가 만든 투자를 타고 가는 전략을 택함. 이미 있는 open weight model 위에 proprietary fine-tune을 얹는 방식
중요한 건 “내 운명을 통제할 만큼만 깊이 들어가는 것”임. 모든 층을 직접 소유해야 한다는 이야기를 스스로 믿으면 비용 구조가 망가질 수 있음

open model과 frontier model은 어떻게 나뉘나?

Clay는 open weight model이 발전해도 frontier model 수요가 사라지지 않는다고 봄
이유는 간단함. 모든 회사가 staff engineer를 principal engineer로 업그레이드하고 싶어 하듯, 더 높은 지능에 대한 수요는 거의 끝이 없다는 것
다만 신발 반품 처리 같은 업무에 최고 frontier model이 필요하지는 않음. 잘 정의된 반복 업무는 더 싸고 작은 모델로 충분할 수 있음
반대로 coding, science, material science, legal처럼 복잡하고 stakes가 높은 영역에서는 더 높은 intelligence에 대한 수요가 계속 생김
그래서 실제 기업은 작업별로 섞어 쓸 가능성이 큼. 예전 frontier였던 모델 수준이 싸지면 그 workload는 open weight fine-tune으로 내려가고, frontier model은 더 어려운 문제로 올라감

작업 유형	적합한 모델	이유
단순 고객지원	fine-tuned open weight	반복적이고 비용 민감
내부 문서 검색	작은 모델 + 검색	품질보다 일관성과 통제가 중요
coding agent	frontier 또는 강한 coding model	긴 추론과 검증이 필요
법률, 과학, 전략	frontier model	오류 비용과 복잡도가 큼

token 비용은 왜 계속 커질 수 있나?

예전에는 모델 호출 단가가 내려가면 전체 AI 비용도 내려갈 것처럼 보였음
그런데 reasoning model은 다르게 움직임. 모델이 답을 바로 내는 대신 내부적으로 오래 생각하고, 그만큼 더 많은 inference compute를 씀
Clay는 OpenAI o1이 보여준 핵심을 “test-time compute를 더 쓰면 모델이 더 똑똑해진다”로 봄
하드웨어가 좋아지고 open weight model로 일부 workload가 내려가면 입력 비용은 낮아질 수 있음
하지만 근본 입력은 GPU capacity와 power임. frontier intelligence나 open weight model을 돌릴 GPU 수요가 공급보다 크면 token 가격에는 바닥이 생김
local model도 일부 consumer app은 좋게 만들 수 있지만, frontier workload를 해결하지는 못함. 휴대폰은 열 한계가 있고, 큰 inference는 결국 데이터센터의 GPU나 TPU rack으로 감

$100K token budget은 무엇을 뜻하나?

Sierra는 token 사용을 아직 강하게 제한하기보다, 빠르게 배우는 쪽에 더 가치를 둔다고 함
하지만 Clay는 top engineer가 Claude Code, Codex 같은 도구를 깊게 쓰면 연간 $100,000 이상 token을 쓰는 run rate가 보인다고 말함
앞으로 CFO의 자본 배분은 headcount만 보는 방식에서 바뀔 수 있음. 연봉, 주식 보상, 그리고 직원별 token budget을 함께 보는 구조
Harry는 Salesforce가 dev team용 Anthropic에 연 $300M을 쓴다는 예를 들었고, 이를 개발자 급여의 약 3.8%로 계산함
Clay는 3.8%보다 훨씬 높아질 가능성을 봄. software engineering에서는 20%에 가까운 수준도 가능하다는 쪽
이유는 생산성 효과가 크기 때문. 2배만 좋아져도 엔지니어링 팀이 사실상 두 배 커진 것과 비슷한 효과가 나옴

AI-native 팀은 어떻게 바뀌나?

Sierra의 AI를 잘 쓰는 engineer들은 feature shipped 기준으로 3배에서 20배 생산성 향상을 체감한다고 함
내부에는 Pine Cone이라는 agent가 있음. MCP gateway를 통해 Slack, 문서, 운영 리뷰 같은 회사 정보를 권한 범위 안에서 읽고, 업무를 도와주는 회사용 harness
Clay 본인도 채용 packet을 검토하는 skill을 만들어 Pine Cone에 붙였다고 함. 또 Sierra Brain이라는 20~30페이지 회사 맥락 문서 기반의 전략 파트너도 실험 중
병목도 이동 중임. 예전에는 코드 작성이 병목이었지만, 이제는 코드 review, 무엇을 만들지 결정하기, 가능한 것 중 해야 할 것을 고르는 일이 더 중요해짐
채용도 바뀌었음. Sierra engineering interview는 지원자에게 $150 token budget을 주고, 원하는 coding agent와 본인 노트북으로 앱을 만들어보게 하는 AI-native 방식으로 바뀜

open weight model이란 무엇인가요?

모델의 weight를 내려받아 직접 운영하거나 fine-tuning할 수 있는 모델을 말함. Sierra는 이런 open weight model 위에 자기 업무에 맞춘 proprietary fine-tune을 얹지만, 거대한 foundation model pre-training은 직접 하지 않음.

frontier model은 언제 써야 하나요?

정답이 복잡하고 오류 비용이 큰 일에 적합함. coding, 법률, 과학, 전략처럼 높은 추론 능력이 필요한 영역에서는 비싸더라도 frontier model 수요가 계속 생길 수 있음.

token budget은 개발자 예산에 들어가나요?

Clay의 전망은 들어간다는 쪽임. 미래에는 엔지니어 한 명의 비용을 볼 때 연봉과 주식 보상만 보는 게 아니라, 그 사람이 생산성을 끌어올리기 위해 쓰는 token budget까지 같이 볼 가능성이 있음.

1인기업 관점

각 enterprise는 결국 자기 업무에 맞게 post-training한 model, benchmark, eval, RL env를 가지게 될 것 같음. frontier model을 그냥 API로 쓰는 단계에서 끝나는 게 아니라, 회사 안의 반복 업무와 판단 기준을 environment로 만들고 거기에 맞춰 모델을 계속 다듬는 쪽으로 갈 듯. 1인기업도 규모는 작아도 자기 제품의 benchmark와 eval을 먼저 쌓아두는 게 나중에 진입장벽이 되지 않나 싶음.

Sierra CEO: 오픈 모델과 $100K 토큰 예산: 20VC (youtube.com) ↗