Nebius 공동창업자: AI 인프라는 버블이 아니다

Nebius 공동창업자는 지금 AI 인프라가 버블이 아니라 adoption 초입이라고 봄. coding 하나만 겨우 대규모 use case로 터졌고, 기업 대부분은 아직 AI를 업무의 1% 수준으로만 쓰고 있다는 관점
open source 모델은 OpenAI, Anthropic을 죽이는 게 아니라 시장을 더 키운다고 봄. 한 task가 싸지면 그 task 소비가 줄어드는 게 아니라, 그동안 경제성이 안 맞던 더 많은 task가 가능해진다는 것
Nebius가 보는 인프라 레이어는 megawatt, GPU hour, token, agent task 순서로 올라감. 아래로는 데이터센터와 GPU, 위로는 모델 선택과 agent 실행 최적화까지 가는 그림
핵심 병목은 단순 GPU 가격이 아니라 전체 비용(TCO)임. 같은 GPU라도 안정성, 캐싱, 모델 최적화, 관측성에 따라 token 비용이 크게 달라짐
Nebius 공동창업자의 20VC 인터뷰. 진행은 Harry Stebbings이며, AI 인프라 수요와 managed inference, enterprise AI adoption을 길게 다룬 대담

AI 인프라는 왜 버블이 아니라고 보나?

Nebius 쪽 주장은 단순함. 아직 AI는 대부분 회사 안에서 아주 작은 비율로만 쓰이고 있음
빠르게 움직이는 AI native 스타트업을 제외하면, 큰 기업도 AI를 본격 운영에 넣은 use case가 많지 않음
coding이 최근 6~12개월 사이에 처음으로 대규모로 작동한 사례가 됐고, healthcare, finance, customer support, internal tool, physical AI는 아직 초입임
그래서 필요한 compute가 줄어들기보다, 사용 가능한 task가 늘면서 더 많은 compute가 필요해질 가능성이 크다고 봄
이건 Jevons paradox와 비슷함. 어떤 자원이 싸지면 소비가 줄어드는 게 아니라, 새 용도가 열리면서 총소비가 늘어나는 현상임

open source 모델은 frontier lab을 죽이나?

Nebius는 이미 많은 고객이 frontier model에서 open source 또는 specialized model로 일부 workload를 옮기고 있다고 말함
흐름은 보통 이렇음. 먼저 OpenAI, Anthropic, Google 같은 최고 모델로 제품을 만들고, use case와 고객 데이터 루프를 확인함
그다음 경제성이 중요해지면 open weight model을 fine-tuning하거나 post-training해서 특정 task에 맞춤화함
중요한 건 open source라서가 아니라, tune 가능하다는 점임. 범용 최고 모델이 아니라도 특정 업무에서는 더 싸고 더 잘할 수 있음
다만 이것이 frontier lab을 바로 해친다고 보지는 않음. frontier lab은 계속 더 어려운 문제로 올라가고, open source는 이미 풀린 task를 더 싸게 대중화하는 역할을 하기 때문임

구분	역할	고객이 원하는 것
Frontier model	가장 어려운 새 문제 해결	최고 지능, 새 capability
Open weight model	이미 정의된 task 최적화	낮은 비용, fine-tuning, 통제권
Specialized model	특정 domain 반복 작업	빠른 속도, 낮은 지연, 높은 정확도
Managed inference	모델 운영 대행	안정성, 관측성, 비용 최적화

Nebius가 말한 AI 인프라 4개 레이어는?

첫 번째 레이어는 capacity임. megawatt와 GPU를 얼마나 많이 배치하느냐의 세계. Meta, Microsoft 같은 대형 고객은 여기서 bare metal 수준의 물리 인프라를 원함
두 번째는 multi-tenant cloud임. 연구팀과 AI startup이 storage, compute, networking, security, observability를 갖춘 cloud 환경에서 GPU hour 단위로 쓰는 단계
세 번째는 managed inference임. 고객은 H200, B200, vLLM, SGLang 같은 세부 운영을 직접 고민하지 않고 token 단위로 모델을 씀. Nebius의 Token Factory가 이 레이어
네 번째는 agentic execution임. 아직은 더 미래에 가까운 레이어지만, 개발자가 모델이나 token을 고르는 대신 “이 task를 이 품질과 예산 안에서 끝내줘”라고 맡기는 형태임
레이어가 올라갈수록 고객 수가 늘어남. bare metal 고객은 수십 곳이지만, managed inference와 agent layer 고객은 수천, 수만 곳이 될 수 있음

managed inference는 왜 중요해지나?

기업이 open source 모델을 직접 운영하려 하면 생각보다 많은 일이 필요함
Hugging Face에서 weights를 받고 inference engine을 붙이는 것만으로는 production 품질이 안 나옴
대규모 서비스에서는 orchestration, caching, observability, model switching, latency 관리, failure 대응이 모두 필요함
Nebius는 이 plumbing을 대신 처리해서 open source 모델도 OpenAI API처럼 쉽게 쓰게 만드는 쪽에 기회가 있다고 봄
token을 싸게 만드는 방법도 단순 GPU 가격 인하만이 아님. distillation, speculative decoding, caching, 모델별 최적화로 같은 품질을 더 낮은 비용에 낼 수 있음

Nebius는 어떤 회사인가요?

Nebius는 AI cloud와 GPU 인프라를 제공하는 회사임. 데이터센터와 GPU capacity를 깔고, 그 위에 multi-tenant cloud, managed inference, 나아가 agent 실행 최적화 레이어까지 만들려는 포지션에 가까움.

open source 모델을 쓰면 왜 비용이 줄어드나요?

모든 요청을 가장 비싼 frontier model에 보내지 않아도 되기 때문임. 반복적이고 정의가 명확한 task는 작은 open weight model을 fine-tuning하거나 post-training해서 더 싸게 처리할 수 있음. 다만 운영 난이도가 있어서 managed inference가 필요해짐.

AI 인프라 수요는 왜 계속 늘 수 있나요?

모델이 싸지고 빨라지면 기존 task 비용만 줄어드는 게 아니라, 예전에는 돈이 안 맞아 못 하던 task가 새로 가능해짐. coding에서 본 일이 finance, healthcare, enterprise workflow, agent workflow로 퍼지면 총 compute 수요는 더 커질 수 있음.

1인기업 관점

지금 AI의 확실한 use case는 아직 코딩 정도인 것 같음. 그런데 다음 큰 use case는 computer-use, 즉 모델이 화면을 보고 클릭하고 입력하면서 실제 행동하는 레이어로 갈 가능성이 커 보임. 확실히 요즘 트렌드가 frontier model로 가능성을 검증하고, workflow가 반복되고 경제성이 중요해지면 local LLM이나 post-trained open model로 내려가는 흐름이 맞는 듯함.

20VC Nebius 공동창업자: AI 인프라는 버블이 아니다 (youtube.com) ↗