Google AI를 더 못 믿게 된 이유: t3.gg | 1인기업 뉴스 1incompany

Theo의 핵심 비판은 “Google이 숫자는 잘 보여주지만 실제로 쓰면 믿기 어렵다”는 쪽에 가까움
Gemini 3.5 Flash는 벤치마크상 빠르고 똑똑해 보이지만, 가격이 크게 올랐고 reasoning 토큰을 많이 써서 실제 작업 비용은 더 비싸질 수 있다고 지적
Anti-gravity CLI는 기존 Gemini CLI를 대체하는 방향인데, Theo는 새 CLI가 닫힌 소스이고 기본 터미널 동작도 불안정하다고 비판함
같은 날 Railway가 Google Cloud 계정 차단 문제로 웹 서비스 장애를 겪은 것도 함께 언급. 모델, 개발 도구, 클라우드까지 신뢰 문제가 한꺼번에 터졌다는 맥락
Theo는 풀스택 개발 유튜버이자 t3.gg·T3 Stack 만든 사람. 이번 영상은 Google AI 제품군에 대한 강한 공개 비판 형식

Gemini 3.5 Flash는 왜 숫자만 보면 좋아 보이나?

발표 자료 기준으로 Gemini 3.5 Flash는 Google이 만든 모델 중 가장 강한 축에 들어감
Terminal Bench, SWE-Bench Pro, MCP Atlas, Toolathon 같은 agentic coding 관련 지표에서 Gemini 3.1 Pro보다 좋아 보이는 결과가 많았음
Artificial Analysis 기준으로는 속도와 성능의 비율도 매우 좋아 보임. 초당 300토큰에 가까운 속도라고 언급됨
문제는 Theo가 “속도만 보고 판단하면 안 된다”고 보는 지점. 모델이 같은 일을 끝내기 위해 토큰을 너무 많이 쓰면, 초당 출력은 빨라도 실제 작업은 느리고 비싸질 수 있음

기존 Gemini CLI는 오픈소스였고, GitHub 스타 10만 개 이상과 많은 기여자를 모은 프로젝트였음
Google은 이 흐름을 Anti-gravity CLI로 옮기겠다고 발표. 2026년 6월 18일부터는 Google AI Pro·Ultra 구독자로 Gemini CLI나 Gemini Code Assist IDE 확장을 쓰던 사람도 Anti-gravity 쪽으로 넘어가야 하는 구조가 됨
문제는 새 Anti-gravity CLI가 닫힌 소스라는 점. Theo는 “괜찮은 오픈소스 CLI를 죽이고, 제대로 동작하지 않는 닫힌 CLI로 바꾼다”고 강하게 비판함
영상에서 언급한 버그도 기본적인 수준임. 스크롤이 깨지고, 입력창이 움직이고, 이메일이 노출되고, 일반적인 Ctrl+C 종료가 안 되며, /exit를 써야 한다는 것
Theo는 이 변화가 기술 판단보다 내부 정치에 가까워 보인다고 봄. 기존 커뮤니티와 신뢰를 쌓던 사람들이 밀리고, Windsurf 출신 팀 중심으로 Anti-gravity가 전면에 나왔다는 해석

Theo는 Railway가 Google Cloud 위에 일부 웹 계층을 두고 있었고, Google Cloud가 Railway 계정을 막으면서 웹-facing 서비스가 내려갔다고 설명함
과거 Google Cloud가 호주 대형 연금 고객 UniSuper의 private cloud subscription을 실수로 삭제한 사례도 언급
Theo의 메시지는 단순히 “이번 CLI가 별로다”가 아님. 모델, CLI, 클라우드 운영, 내부 조직이 모두 같은 방향의 신뢰 문제를 보여준다는 주장
AWS는 재미없어도 안정적이고, Azure는 이상해도 돈 되는 고객을 붙잡는 방법은 아는데, Google Cloud는 큰 고객도 위험하게 만든다는 식의 강한 비판
그래서 결론은 꽤 극단적임. Google 제품 위에 중요한 것을 올려두는 게 점점 더 위험해 보인다는 것

벤치마크 숫자만 보면 좋은 모델로 보임. 다만 Theo가 문제 삼는 건 실제 코딩 작업에서 깨진 결과를 냈고, 토큰을 많이 써서 비용과 시간 효율이 나쁠 수 있다는 점임. 즉 “점수는 좋은데 운영상 믿기 어렵다”에 가까움.

모델마다 같은 일을 끝낼 때 쓰는 토큰 수가 다름. 토큰당 단가가 낮아도 4배 많은 토큰을 쓰면 총 비용은 더 커질 수 있음. 그래서 AI 코딩 도구를 고를 때는 “답변 1토큰 가격”보다 “작업 하나를 끝내는 총 비용”을 봐야 함.

개발자가 매일 쓰는 CLI는 모델 성능만큼 중요함. 아무리 모델이 좋아도 터미널 입력, 스크롤, 종료, 인증 같은 기본 동작이 불안정하면 실제 업무 흐름이 깨짐. 게다가 닫힌 소스면 커뮤니티가 직접 고치기도 어려움.

Google이 죽인 프로젝트가 수십 개였던 것도 단순히 PMF를 못 찾은 경우만은 아니고, 내부 정치 때문에 밀린 제품이 많긴 함. AI 코딩 도구는 그냥 클코나 Codex 쓰는 게 나을 듯.