Sierra CEO: 오픈 모델과 $100K 토큰 예산: 20VC (youtube.com) ↗

|
공유
  • Sierra는 foundation model을 직접 pre-training하지 않기로 했음. 자본이 많이 들고 금방 낡는 숫자 덩어리를 직접 만드는 일은 일부 회사만 가능한 게임이라는 판단
  • Clay Bavor의 결론은 open model과 frontier model 중 하나가 이기는 그림이 아님. 어려운 일은 frontier, 반복 업무는 fine-tuned open weight로 나뉘는 구조에 가까움
  • reasoning model 때문에 token 비용은 단순히 내려가기만 하지 않음. 모델이 더 오래 생각할수록 더 똑똑해지는 영역이 생기면서 inference 사용량 자체가 커짐
  • AI를 깊게 쓰는 top engineer는 연간 $100,000 이상을 token에 쓰는 run rate도 보인다고 언급됨. 미래에는 연봉, 주식 보상, token budget이 함께 잡힐 수 있다는 관점
  • 20VC 인터뷰. Google에서 18년 일한 Clay Bavor가 Bret Taylor와 Sierra를 만든 이유, enterprise agent, AI-native hiring을 설명한 대담

Sierra는 왜 foundation model을 직접 만들지 않았나?

  • 2022년 말, 2023년 초에는 AI startup이 직접 foundation model을 만들지 않으면 진지하게 보이지 않는 분위기가 있었음
  • Sierra도 잠깐 검토했지만 금방 버렸다고 함. 거대한 cluster로 pre-training을 돌리는 건 계속 돈이 들어가고, 모델은 빠르게 낡기 때문
  • Clay는 이를 “highly perishable bag of floating point numbers”에 가깝게 표현함. 쉽게 말하면 비싼 신선식품 같은 자산이라는 뜻
  • 대신 Sierra는 lab과 hyperscaler가 만든 투자를 타고 가는 전략을 택함. 이미 있는 open weight model 위에 proprietary fine-tune을 얹는 방식
  • 중요한 건 “내 운명을 통제할 만큼만 깊이 들어가는 것”임. 모든 층을 직접 소유해야 한다는 이야기를 스스로 믿으면 비용 구조가 망가질 수 있음

open model과 frontier model은 어떻게 나뉘나?

  • Clay는 open weight model이 발전해도 frontier model 수요가 사라지지 않는다고 봄
  • 이유는 간단함. 모든 회사가 staff engineer를 principal engineer로 업그레이드하고 싶어 하듯, 더 높은 지능에 대한 수요는 거의 끝이 없다는 것
  • 다만 신발 반품 처리 같은 업무에 최고 frontier model이 필요하지는 않음. 잘 정의된 반복 업무는 더 싸고 작은 모델로 충분할 수 있음
  • 반대로 coding, science, material science, legal처럼 복잡하고 stakes가 높은 영역에서는 더 높은 intelligence에 대한 수요가 계속 생김
  • 그래서 실제 기업은 작업별로 섞어 쓸 가능성이 큼. 예전 frontier였던 모델 수준이 싸지면 그 workload는 open weight fine-tune으로 내려가고, frontier model은 더 어려운 문제로 올라감
작업 유형적합한 모델이유
단순 고객지원fine-tuned open weight반복적이고 비용 민감
내부 문서 검색작은 모델 + 검색품질보다 일관성과 통제가 중요
coding agentfrontier 또는 강한 coding model긴 추론과 검증이 필요
법률, 과학, 전략frontier model오류 비용과 복잡도가 큼

token 비용은 왜 계속 커질 수 있나?

  • 예전에는 모델 호출 단가가 내려가면 전체 AI 비용도 내려갈 것처럼 보였음
  • 그런데 reasoning model은 다르게 움직임. 모델이 답을 바로 내는 대신 내부적으로 오래 생각하고, 그만큼 더 많은 inference compute를 씀
  • Clay는 OpenAI o1이 보여준 핵심을 “test-time compute를 더 쓰면 모델이 더 똑똑해진다”로 봄
  • 하드웨어가 좋아지고 open weight model로 일부 workload가 내려가면 입력 비용은 낮아질 수 있음
  • 하지만 근본 입력은 GPU capacity와 power임. frontier intelligence나 open weight model을 돌릴 GPU 수요가 공급보다 크면 token 가격에는 바닥이 생김
  • local model도 일부 consumer app은 좋게 만들 수 있지만, frontier workload를 해결하지는 못함. 휴대폰은 열 한계가 있고, 큰 inference는 결국 데이터센터의 GPU나 TPU rack으로 감

$100K token budget은 무엇을 뜻하나?

  • Sierra는 token 사용을 아직 강하게 제한하기보다, 빠르게 배우는 쪽에 더 가치를 둔다고 함
  • 하지만 Clay는 top engineer가 Claude Code, Codex 같은 도구를 깊게 쓰면 연간 $100,000 이상 token을 쓰는 run rate가 보인다고 말함
  • 앞으로 CFO의 자본 배분은 headcount만 보는 방식에서 바뀔 수 있음. 연봉, 주식 보상, 그리고 직원별 token budget을 함께 보는 구조
  • Harry는 Salesforce가 dev team용 Anthropic에 연 $300M을 쓴다는 예를 들었고, 이를 개발자 급여의 약 3.8%로 계산함
  • Clay는 3.8%보다 훨씬 높아질 가능성을 봄. software engineering에서는 20%에 가까운 수준도 가능하다는 쪽
  • 이유는 생산성 효과가 크기 때문. 2배만 좋아져도 엔지니어링 팀이 사실상 두 배 커진 것과 비슷한 효과가 나옴

AI-native 팀은 어떻게 바뀌나?

  • Sierra의 AI를 잘 쓰는 engineer들은 feature shipped 기준으로 3배에서 20배 생산성 향상을 체감한다고 함
  • 내부에는 Pine Cone이라는 agent가 있음. MCP gateway를 통해 Slack, 문서, 운영 리뷰 같은 회사 정보를 권한 범위 안에서 읽고, 업무를 도와주는 회사용 harness
  • Clay 본인도 채용 packet을 검토하는 skill을 만들어 Pine Cone에 붙였다고 함. 또 Sierra Brain이라는 20~30페이지 회사 맥락 문서 기반의 전략 파트너도 실험 중
  • 병목도 이동 중임. 예전에는 코드 작성이 병목이었지만, 이제는 코드 review, 무엇을 만들지 결정하기, 가능한 것 중 해야 할 것을 고르는 일이 더 중요해짐
  • 채용도 바뀌었음. Sierra engineering interview는 지원자에게 $150 token budget을 주고, 원하는 coding agent와 본인 노트북으로 앱을 만들어보게 하는 AI-native 방식으로 바뀜

open weight model이란 무엇인가요?

모델의 weight를 내려받아 직접 운영하거나 fine-tuning할 수 있는 모델을 말함. Sierra는 이런 open weight model 위에 자기 업무에 맞춘 proprietary fine-tune을 얹지만, 거대한 foundation model pre-training은 직접 하지 않음.

frontier model은 언제 써야 하나요?

정답이 복잡하고 오류 비용이 큰 일에 적합함. coding, 법률, 과학, 전략처럼 높은 추론 능력이 필요한 영역에서는 비싸더라도 frontier model 수요가 계속 생길 수 있음.

token budget은 개발자 예산에 들어가나요?

Clay의 전망은 들어간다는 쪽임. 미래에는 엔지니어 한 명의 비용을 볼 때 연봉과 주식 보상만 보는 게 아니라, 그 사람이 생산성을 끌어올리기 위해 쓰는 token budget까지 같이 볼 가능성이 있음.

1인기업 관점

각 enterprise는 결국 자기 업무에 맞게 post-training한 model, benchmark, eval, RL env를 가지게 될 것 같음. frontier model을 그냥 API로 쓰는 단계에서 끝나는 게 아니라, 회사 안의 반복 업무와 판단 기준을 environment로 만들고 거기에 맞춰 모델을 계속 다듬는 쪽으로 갈 듯. 1인기업도 규모는 작아도 자기 제품의 benchmark와 eval을 먼저 쌓아두는 게 나중에 진입장벽이 되지 않나 싶음.


관련: Legora CTO: 코드가 싸진 뒤 병목은 어디인가Nebius 공동창업자: AI 인프라는 버블이 아니다도 같이 보면 좋음.

관련 글

뉴스레터 구독

매주 엄선된 1인기업 뉴스를 이메일로 받아보세요.