OpenAI: 모델 평가를 다시 만드는 이유

오래된 AI 벤치마크는 빠르게 포화됨. 모델이 시험 문제를 거의 다 맞히면 더 좋은 모델끼리 차이를 볼 수 없기 때문
Tejal Patwardhan은 좋은 평가는 “모델이 실제 사람이 하려는 일을 얼마나 해내는가”를 봐야 한다고 말함. 그래서 OpenAI는 SWE-bench Verified, GDPval 같은 실전형 평가를 공개해옴
핵심 변화는 정적 시험에서 긴 작업으로 이동하는 것. 최신 reasoning model과 Codex는 코드 실행, 파일 검색, 브라우저 조작, API 호출까지 섞어 일할 수 있음
벤치마크 점수만 좋게 만드는 BenchMaxxing은 사용자에게 별 도움이 안 됨. 모델은 평가지를 외우는 게 아니라 실제 업무에서 쓸모 있어야 함
OpenAI Podcast Episode 21. OpenAI frontier evals 팀을 이끄는 Tejal Patwardhan과 Andrew Mayne의 대담

왜 기존 벤치마크가 빨리 낡나?

벤치마크 포화는 모델이 문제를 거의 다 맞혀서 더 이상 차이를 구분하기 어려운 상태를 뜻함
Tejal은 이를 “두 천재에게 고등학교 수학 시험을 치르게 하는 것”에 비유함. 둘 다 만점이면 누가 더 어려운 문제를 풀 수 있는지 알 수 없음
초기 NLP 평가는 객관식 시험이나 짧은 답변이 많았음. 모델이 똑똑해지면서 이런 시험은 금방 쉬워짐
그 다음 단계가 SWE-bench Verified였음. 실제 Python 코드베이스에서 이슈를 고치고, 테스트를 통과하는지 보는 평가임
하지만 코딩 평가도 빠르게 쉬워짐. 모델이 real repo에서 잘 작동하자, OpenAI는 더 긴 작업과 더 모호한 지시를 보는 쪽으로 이동 중
배경에는 capability overhang이라는 개념도 있음. 모델은 이미 할 수 있는데, 사람과 조직이 아직 그 가능성을 업무에 적용하지 못한 상태임

좋은 AI 평가는 무엇을 봐야 하나?

Tejal이 말하는 좋은 평가는 현실적이고, 사람이 실제로 신경 쓰는 일을 측정해야 함
GDPval은 그 방향의 공개 평가임. 미국 노동통계국(BLS)의 직업과 업무 목록을 바탕으로, 금융 분석, 법률 메모, 연구 자료 정리 같은 실제 화이트칼라 작업을 모델에 시킴
초기 모델은 이 평가에서 인간 대비 20% 미만 수준이었다고 함. 이 측정이 생긴 뒤 OpenAI 내부에서도 “실제 업무에 도움이 되는 모델”을 더 의식하게 됨
지금은 GDPval도 너무 친절한 평가가 되어가는 중. 지시문이 수백 단어로 상세해서, 실제 회사에서 상사가 “이 분석 좀 해줘”라고 던지는 모호함과 다름
다음 평가는 모델이 문제 정의, 자료 찾기, 분석, 산출물 작성까지 스스로 이어가는지 보는 쪽에 가까움

평가 방식	보는 것	한계
객관식 시험	지식과 짧은 추론	빠르게 포화됨
SWE-bench Verified	실제 코드 수정과 테스트 통과	코딩 영역에 치우침
GDPval	직업별 실제 업무 산출물	지시가 너무 상세해질 수 있음
실제 사용 관찰	사람들이 모델로 끝낸 업무	통제된 비교가 어려움

프론티어 평가는 왜 더 복잡해지나?

최신 모델은 단순히 답만 쓰지 않음. 파일을 검색하고, 코드를 실행하고, 브라우저를 조작하고, 외부 도구를 호출함
그래서 긴 컨텍스트를 많이 넣는 것보다, 모델이 필요한 파일을 스스로 찾아보는 능력이 더 중요해짐. repo 전체를 prompt에 넣는 대신 모델이 grep처럼 찾고 읽는 방식임
Codex 평가도 그래서 어려워짐. 모델이 컴퓨터에서 행동하고, 산출물을 만들고, 테스트를 돌리고, API를 호출하는 전체 흐름을 봐야 함
멀티모달 모델은 또 다른 문제임. GPT-4o의 실시간 음성 모델은 악용 가능성 때문에 공개 launch가 6주 늦춰졌고, 안전 테스트도 새로 필요했다고 설명함
과학 평가도 비슷함. Ginkgo Bioworks와의 wet lab 평가에서는 모델이 단백질 합성 protocol을 제안하고, 자동화된 실험실 로봇이 실제로 실험해 수율을 측정함
핵심은 평가 결과가 코드 로그가 아니라 실제 실험실 결과였다는 점임. Tejal 팀의 표현처럼 좋은 평가에서는 “pain is the moat”가 됨

개인이나 회사는 자기 eval을 어떻게 만들까?

Tejal의 조언은 단순함. 모델을 최대한 자주 직접 써보고, 안 됐던 일을 몇 주 뒤 다시 시도해보라는 것
개인 eval은 거창할 필요 없음. 매주 반복하는 업무 5개를 고르고, 같은 입력으로 새 모델에 다시 맡겨보면 됨
예시는 고객 메일 초안, 오류 로그 원인 찾기, 블로그 요약, 리서치 정리, 회의 후 할 일 추출 같은 것
점수는 세 가지로만 봐도 충분함. 끝까지 처리했는가, 사람이 고치는 시간이 줄었는가, 실패 이유가 반복되는가
OpenAI 내부에서도 모델이 Slack, 실험 계획, 운영 업무의 첫 초안을 맡고, 부족한 부분은 다시 eval로 넣는다고 함

AI 벤치마크 포화는 무슨 뜻인가요?

모델이 평가 문제를 거의 다 맞혀서 더 이상 성능 차이를 구분하기 어려운 상태를 뜻함. 이때는 더 현실적이고 더 긴 작업을 보는 새 평가가 필요함.

GDPval은 무엇인가요?

OpenAI가 공개한 실전 업무 평가임. 금융 분석, 법률 메모, 연구 정리처럼 실제 직업에서 나오는 업무를 모델에 시키고, 사람 기준과 비교함.

1인기업도 AI 평가표를 만들어야 하나요?

만드는 게 좋음. AI 모델은 몇 주 단위로 달라지기 때문에, 예전에 실패한 작업이 금방 가능해질 수 있음. 자기 업무에서 자주 반복되는 5개 작업만 고정 평가로 두어도 어떤 모델을 어디에 써야 할지 감이 빨리 생김.

1인기업 관점

핵심은 기업들이 frontier evals are Not My Evals라는 걸 깨닫는 지점인 듯함. OpenAI가 GDPval이나 wet lab 평가로 프론티어를 재는 것과, 한 회사가 실제 업무에서 돈과 시간을 아끼는지는 다른 문제임. 1인기업도 마찬가지라서 “좋은 모델인가”보다 “내 고객 응대, 오류 처리, 결제 운영에서 실제로 덜 고치게 해주나”를 자기 기준으로 봐야 할 것 같음.

OpenAI OpenAI: 모델 평가를 다시 만드는 이유 (youtube.com) ↗