OpenAI: 모델 평가를 다시 만드는 이유 (youtube.com) ↗
- 오래된 AI 벤치마크는 빠르게 포화됨. 모델이 시험 문제를 거의 다 맞히면 더 좋은 모델끼리 차이를 볼 수 없기 때문
- Tejal Patwardhan은 좋은 평가는 “모델이 실제 사람이 하려는 일을 얼마나 해내는가”를 봐야 한다고 말함. 그래서 OpenAI는 SWE-bench Verified, GDPval 같은 실전형 평가를 공개해옴
- 핵심 변화는 정적 시험에서 긴 작업으로 이동하는 것. 최신 reasoning model과 Codex는 코드 실행, 파일 검색, 브라우저 조작, API 호출까지 섞어 일할 수 있음
- 벤치마크 점수만 좋게 만드는 BenchMaxxing은 사용자에게 별 도움이 안 됨. 모델은 평가지를 외우는 게 아니라 실제 업무에서 쓸모 있어야 함
- OpenAI Podcast Episode 21. OpenAI frontier evals 팀을 이끄는 Tejal Patwardhan과 Andrew Mayne의 대담
왜 기존 벤치마크가 빨리 낡나?
- 벤치마크 포화는 모델이 문제를 거의 다 맞혀서 더 이상 차이를 구분하기 어려운 상태를 뜻함
- Tejal은 이를 “두 천재에게 고등학교 수학 시험을 치르게 하는 것”에 비유함. 둘 다 만점이면 누가 더 어려운 문제를 풀 수 있는지 알 수 없음
- 초기 NLP 평가는 객관식 시험이나 짧은 답변이 많았음. 모델이 똑똑해지면서 이런 시험은 금방 쉬워짐
- 그 다음 단계가 SWE-bench Verified였음. 실제 Python 코드베이스에서 이슈를 고치고, 테스트를 통과하는지 보는 평가임
- 하지만 코딩 평가도 빠르게 쉬워짐. 모델이 real repo에서 잘 작동하자, OpenAI는 더 긴 작업과 더 모호한 지시를 보는 쪽으로 이동 중
- 배경에는 capability overhang이라는 개념도 있음. 모델은 이미 할 수 있는데, 사람과 조직이 아직 그 가능성을 업무에 적용하지 못한 상태임
좋은 AI 평가는 무엇을 봐야 하나?
- Tejal이 말하는 좋은 평가는 현실적이고, 사람이 실제로 신경 쓰는 일을 측정해야 함
- GDPval은 그 방향의 공개 평가임. 미국 노동통계국(BLS)의 직업과 업무 목록을 바탕으로, 금융 분석, 법률 메모, 연구 자료 정리 같은 실제 화이트칼라 작업을 모델에 시킴
- 초기 모델은 이 평가에서 인간 대비 20% 미만 수준이었다고 함. 이 측정이 생긴 뒤 OpenAI 내부에서도 “실제 업무에 도움이 되는 모델”을 더 의식하게 됨
- 지금은 GDPval도 너무 친절한 평가가 되어가는 중. 지시문이 수백 단어로 상세해서, 실제 회사에서 상사가 “이 분석 좀 해줘”라고 던지는 모호함과 다름
- 다음 평가는 모델이 문제 정의, 자료 찾기, 분석, 산출물 작성까지 스스로 이어가는지 보는 쪽에 가까움
| 평가 방식 | 보는 것 | 한계 |
|---|---|---|
| 객관식 시험 | 지식과 짧은 추론 | 빠르게 포화됨 |
| SWE-bench Verified | 실제 코드 수정과 테스트 통과 | 코딩 영역에 치우침 |
| GDPval | 직업별 실제 업무 산출물 | 지시가 너무 상세해질 수 있음 |
| 실제 사용 관찰 | 사람들이 모델로 끝낸 업무 | 통제된 비교가 어려움 |
프론티어 평가는 왜 더 복잡해지나?
- 최신 모델은 단순히 답만 쓰지 않음. 파일을 검색하고, 코드를 실행하고, 브라우저를 조작하고, 외부 도구를 호출함
- 그래서 긴 컨텍스트를 많이 넣는 것보다, 모델이 필요한 파일을 스스로 찾아보는 능력이 더 중요해짐. repo 전체를 prompt에 넣는 대신 모델이 grep처럼 찾고 읽는 방식임
- Codex 평가도 그래서 어려워짐. 모델이 컴퓨터에서 행동하고, 산출물을 만들고, 테스트를 돌리고, API를 호출하는 전체 흐름을 봐야 함
- 멀티모달 모델은 또 다른 문제임. GPT-4o의 실시간 음성 모델은 악용 가능성 때문에 공개 launch가 6주 늦춰졌고, 안전 테스트도 새로 필요했다고 설명함
- 과학 평가도 비슷함. Ginkgo Bioworks와의 wet lab 평가에서는 모델이 단백질 합성 protocol을 제안하고, 자동화된 실험실 로봇이 실제로 실험해 수율을 측정함
- 핵심은 평가 결과가 코드 로그가 아니라 실제 실험실 결과였다는 점임. Tejal 팀의 표현처럼 좋은 평가에서는 “pain is the moat”가 됨
개인이나 회사는 자기 eval을 어떻게 만들까?
- Tejal의 조언은 단순함. 모델을 최대한 자주 직접 써보고, 안 됐던 일을 몇 주 뒤 다시 시도해보라는 것
- 개인 eval은 거창할 필요 없음. 매주 반복하는 업무 5개를 고르고, 같은 입력으로 새 모델에 다시 맡겨보면 됨
- 예시는 고객 메일 초안, 오류 로그 원인 찾기, 블로그 요약, 리서치 정리, 회의 후 할 일 추출 같은 것
- 점수는 세 가지로만 봐도 충분함. 끝까지 처리했는가, 사람이 고치는 시간이 줄었는가, 실패 이유가 반복되는가
- OpenAI 내부에서도 모델이 Slack, 실험 계획, 운영 업무의 첫 초안을 맡고, 부족한 부분은 다시 eval로 넣는다고 함
AI 벤치마크 포화는 무슨 뜻인가요?
모델이 평가 문제를 거의 다 맞혀서 더 이상 성능 차이를 구분하기 어려운 상태를 뜻함. 이때는 더 현실적이고 더 긴 작업을 보는 새 평가가 필요함.
GDPval은 무엇인가요?
OpenAI가 공개한 실전 업무 평가임. 금융 분석, 법률 메모, 연구 정리처럼 실제 직업에서 나오는 업무를 모델에 시키고, 사람 기준과 비교함.
1인기업도 AI 평가표를 만들어야 하나요?
만드는 게 좋음. AI 모델은 몇 주 단위로 달라지기 때문에, 예전에 실패한 작업이 금방 가능해질 수 있음. 자기 업무에서 자주 반복되는 5개 작업만 고정 평가로 두어도 어떤 모델을 어디에 써야 할지 감이 빨리 생김.
1인기업 관점
핵심은 기업들이 frontier evals are Not My Evals라는 걸 깨닫는 지점인 듯함. OpenAI가 GDPval이나 wet lab 평가로 프론티어를 재는 것과, 한 회사가 실제 업무에서 돈과 시간을 아끼는지는 다른 문제임. 1인기업도 마찬가지라서 “좋은 모델인가”보다 “내 고객 응대, 오류 처리, 결제 운영에서 실제로 덜 고치게 해주나”를 자기 기준으로 봐야 할 것 같음.
관련: Databricks CEO: AI에는 context가 필요하다와 모델이 하네스를 먹는다는 뜻: Sequoia도 같이 보면 좋음.
관련 글
모델과 하네스를 같이 소유해야 한다
AI 앱 회사가 모델, 하네스, 도메인 RL, open weights 운영을 어떻게 봐야 하는지 1인기업 관점에서 정리.
AI 코딩 하네스도 리팩토링해야 한다: 개발동생
개발동생이 말한 AI 코딩 하네스 관리법. 1인기업도 AGENTS.md, MCP, Skill을 주기적으로 덜어내야 함.
Databricks CEO: AI에는 context가 필요하다
Databricks CEO가 말한 AI agent와 데이터 전략. 1인기업도 모델보다 context와 비용 통제를 봐야 함.
뉴스레터 구독
매주 엄선된 1인기업 뉴스를 이메일로 받아보세요.