Andrej Karpathy: vibe coding에서 agentic engineering으로

Q: ”동물이 아니라 유령” 비유는 무엇?

Sequoia AI Ascent에서 Karpathy가 풀어놓은 12월 전환점, Software 3.0, 들쭉날쭉한 AI 능력, 그리고 1인기업이 바로 적용할 만한 부분 정리.

12월이 Karpathy 본인 기준 전환점. 새 모델한테 코드 부탁하면 마지막으로 직접 고친 게 언제인지 기억 안 날 정도가 돼서 본격 vibe coding으로 넘어감
소프트웨어 패러다임이 1.0(사람이 코드 직접 작성) → 2.0(데이터로 학습) → 3.0(LLM에게 말로 시키기)으로 바뀌는 중. 컨텍스트 윈도우에 무엇을 넣느냐가 곧 프로그래밍
메뉴 앱 사례. Karpathy가 직접 짠 글자 인식 + 음식 사진 생성 앱이, Gemini에 Nano Banana 호출 한 번으로 통째 대체됨. 앱 자체가 불필요해지는 시대로 진입
vibe coding은 바닥을 올리는 일, agentic engineering은 기존 품질·보안을 유지하면서 속도만 올리는 일. 둘은 다른 분야이고, 잘하는 사람은 10배 그 이상으로 빨라짐
Sequoia AI Ascent의 Karpathy 인터뷰. OpenAI 공동창업자·Tesla AI 디렉터 출신, 최근엔 nanoGPT·LLM 강의 같은 교육용 프로젝트로 활동 중. vibe coding 용어 자체를 본인이 만들었음

12월이 왜 전환점이 됐나?

작년 한 해 Karpathy도 에이전트 코딩 도구를 가끔 썼지만, 모델이 내놓은 코드에 본인이 손봐야 할 부분이 늘 있었음
12월에 시간이 풀려서 다시 시도. 새 모델이 코드를 그냥 잘 내놓는 일이 반복되면서 마지막으로 고친 게 언제인지 기억 안 날 지경. 그때부터 사이드 프로젝트 폴더가 폭발
ChatGPT 초창기 경험만으로 AI를 평가하던 사람은 12월 기준으로 다시 봐달라는 게 본인 메시지. 워크플로우가 일관되게 굴러가는 시점이 그때 도래

Software 3.0이란 무엇인가?

1.0 = 사람이 직접 코드를 짜던 시대
2.0 = 데이터셋·학습 목표를 정해서 신경망을 훈련시키던 시대
3.0 = LLM이 프로그램 가능한 컴퓨터가 되고, 프롬프트·컨텍스트가 그 컴퓨터의 프로그램 역할을 하는 시대

패러다임	프로그램의 형태	실행되는 곳
Software 1.0	명시적 코드 (Python, JS 등)	CPU
Software 2.0	데이터셋 + 학습 목표	학습 알고리즘
Software 3.0	프롬프트 + 컨텍스트	LLM

openclaw 설치 사례. 보통은 환경별 분기가 잔뜩 들어간 스크립트가 필요한데, 안내는 사실상 “이 텍스트를 에이전트에게 복사 붙여넣어라”가 끝. 에이전트가 환경 보고 알아서 처리
메뉴 앱 사례. Karpathy가 글자 인식 + 음식 사진 생성을 조합해 앱을 만들었는데, Gemini에 메뉴 사진을 넘기고 Nano Banana로 그 위에 음식 사진을 끼워넣으라고 하니 앱 전체가 불필요해짐. 결과 이미지가 원본 메뉴 픽셀에 음식이 박혀 돌아옴
즉 “이전에 가능하던 일이 빨라진 것”이 아니라 “이전엔 아예 불가능하던 일”이 새로 가능해지는 중

왜 어떤 작업은 다른 작업보다 훨씬 빨리 자동화되나?

핵심은 검증 가능성. 결과를 자동으로 채점할 수 있는 영역일수록 자동화가 빠름
이유는 단순. RL은 정답·오답 신호가 있어야 모델에 보상을 줄 수 있어서, 자동 채점이 되는 영역만 폭발적으로 좋아짐
그래서 수학·코드처럼 자동 채점 가능한 영역에서는 모델이 갑자기 잘하고, 미적 판단·주관적 글쓰기처럼 채점이 애매한 영역에서는 정체. 이게 jagged intelligence(들쭉날쭉한 지능)의 첫째 원인
둘째 원인은 연구소가 어디에 신경 썼는지. GPT-3.5 → GPT-4 체스 실력 폭증은 자연 발전이 아니라 OpenAI 누군가가 체스 데이터를 일부러 학습에 끼워넣은 결과
결과적으로 사용자는 연구소가 챙긴 영역 안에서만 빠르게 비행, 밖이면 정체. 옛날엔 “Strawberry에 r이 몇 개?”, 지금은 “세차장이 50m인데 차로 갈까 걸어갈까?”에 “걸어가라”고 답하는 식
처방. 본인 사용처가 잘 작동하면 그대로 쓰고, 안 되면 본인이 채점 환경을 만들어 fine-tuning하는 쪽으로

vibe coding과 agentic engineering은 어떻게 다른가?

vibe coding은 바닥을 올리는 일. 비개발자도 무엇이든 만들 수 있게 됨. 사이드 프로젝트·프로토타입에 적합
agentic engineering은 천장을 다루는 일. 운영 소프트웨어가 지키던 보안·성능·유지보수 수준을 안 떨어뜨리면서 속도만 올리는 게 목표
에이전트들은 강력하지만 능력이 들쭉날쭉하고 매번 답이 살짝 다른 존재. 잘 부리는 법이 따로 있음
잘하는 사람은 10배 엔지니어를 훌쩍 넘어감. Karpathy 직접 관찰
채용도 바뀌어야 한다는 말. 알고리즘 퍼즐 말고, “에이전트용 Twitter 클론 만들고, 다른 codex 에이전트 10개로 공격해도 안 뚫리면 합격” 같은 실전 시험이 더 의미 있음

항목	vibe coding	agentic engineering
목적	누구나 만들 수 있게 (바닥 ↑)	품질 유지하며 가속 (천장 ↑)
대상	비개발자, 사이드 프로젝트	운영 단계 소프트웨어
위험	큰 사고 안 남	보안·품질 사고 남
1인기업 활용	빠른 프로토타입, MVP 검증	운영 SaaS·자동화 라인

모델은 자릿수 세기는 못하면서 어떻게 코드는 잘 짜나?

RL 환경이 있는 영역에서는 비현실적으로 잘하고, 그 밖에서는 의외로 못함. 코드는 컴파일·실행·테스트라는 자동 채점 신호가 있어서 학습이 잘 먹힘. 글자 세기·일상 상식은 채점 신호 설계가 약해서 들쭉날쭉. 연구소가 일부러 데이터를 넣은 영역(체스 실력 도약)도 같은 효과.

1인 창업가는 채점 가능한 영역에서만 사업해야 하나?

Karpathy는 결국 거의 모든 영역이 채점 가능해질 수 있다고 봄. 글쓰기처럼 주관적인 영역도 LLM 여러 대를 심사위원으로 두면 점수가 가능. 다만 영역마다 난이도가 다를 뿐. 자기 도메인에서 채점 환경을 직접 만들 수 있으면 큰 연구소가 안 챙기는 자리에서도 fine-tuning으로 경쟁 가능.

지금 에이전트가 잘 못하는 일은 무엇인가?

에이전트는 “인턴” 같은 존재. 코드 디테일은 채우는데 시스템 설계·미적 판단·보안 가정 같은 큰 결정은 못 함. 메뉴 앱에서 Stripe 결제 이메일과 Google 로그인 이메일을 같은 사람으로 묶으려 한 사례가 대표적. 사양·데이터 구조는 사람이 잡고, 빈칸 채우기만 넘기는 게 안전선.

”동물이 아니라 유령” 비유는 무엇?

LLM은 진화로 빚어진 동물 지능이 아니라, 사전학습 통계 위에 RL이 얹힌 유령에 가깝다는 비유. 호기심·내재 동기가 없음. 야단친다고 더 잘하지도, 격려한다고 더 좋아지지도 않음. 통계 시뮬레이션 회로로 의심하며 다루라는 메시지.

지능이 싸지는 시대에 사람은 무엇을 깊게 배워야 하나?

Karpathy가 인용한 트윗. “사고는 외주 줄 수 있어도 이해는 외주 줄 수 없다.” 무엇을, 왜 만들지, 에이전트에게 어떻게 방향을 줄지를 사람이 알아야 좋은 디렉터가 됨. 본인이 LLM 지식 베이스(개인 위키)에 정성을 들이는 것도 본인 이해를 깊게 하기 위한 도구.

1인기업 관점

1인기업가가 “에이전트 코딩 1년 전에 써봤는데 별로던데”에 멈춰 있다면 지금 다시 보라는 신호. 본인이 잘 아는 좁은 도메인에서 채점 환경을 직접 만들고 에이전트를 굴리면 큰 연구소가 안 챙기는 자리에서도 1인이 깊게 들어갈 만한 듯. 본인이 지금 아무도 안 만드는 개인용 computer use agent를 만드는 것도 딱 그런 자리. 데이터 구조와 사양은 본인이 꼭 잡는 습관, 이건 안 들이면 한 방에 사고로 돌아오지 않나 싶음.

Andrej Karpathy: vibe coding에서 agentic engineering으로 (youtube.com) ↗