OpenAI: 모델 평가를 다시 만드는 이유 (youtube.com) ↗

|
공유
  • 오래된 AI 벤치마크는 빠르게 포화됨. 모델이 시험 문제를 거의 다 맞히면 더 좋은 모델끼리 차이를 볼 수 없기 때문
  • Tejal Patwardhan은 좋은 평가는 “모델이 실제 사람이 하려는 일을 얼마나 해내는가”를 봐야 한다고 말함. 그래서 OpenAI는 SWE-bench Verified, GDPval 같은 실전형 평가를 공개해옴
  • 핵심 변화는 정적 시험에서 긴 작업으로 이동하는 것. 최신 reasoning model과 Codex는 코드 실행, 파일 검색, 브라우저 조작, API 호출까지 섞어 일할 수 있음
  • 벤치마크 점수만 좋게 만드는 BenchMaxxing은 사용자에게 별 도움이 안 됨. 모델은 평가지를 외우는 게 아니라 실제 업무에서 쓸모 있어야 함
  • OpenAI Podcast Episode 21. OpenAI frontier evals 팀을 이끄는 Tejal Patwardhan과 Andrew Mayne의 대담

왜 기존 벤치마크가 빨리 낡나?

  • 벤치마크 포화는 모델이 문제를 거의 다 맞혀서 더 이상 차이를 구분하기 어려운 상태를 뜻함
  • Tejal은 이를 “두 천재에게 고등학교 수학 시험을 치르게 하는 것”에 비유함. 둘 다 만점이면 누가 더 어려운 문제를 풀 수 있는지 알 수 없음
  • 초기 NLP 평가는 객관식 시험이나 짧은 답변이 많았음. 모델이 똑똑해지면서 이런 시험은 금방 쉬워짐
  • 그 다음 단계가 SWE-bench Verified였음. 실제 Python 코드베이스에서 이슈를 고치고, 테스트를 통과하는지 보는 평가임
  • 하지만 코딩 평가도 빠르게 쉬워짐. 모델이 real repo에서 잘 작동하자, OpenAI는 더 긴 작업과 더 모호한 지시를 보는 쪽으로 이동 중
  • 배경에는 capability overhang이라는 개념도 있음. 모델은 이미 할 수 있는데, 사람과 조직이 아직 그 가능성을 업무에 적용하지 못한 상태임

좋은 AI 평가는 무엇을 봐야 하나?

  • Tejal이 말하는 좋은 평가는 현실적이고, 사람이 실제로 신경 쓰는 일을 측정해야 함
  • GDPval은 그 방향의 공개 평가임. 미국 노동통계국(BLS)의 직업과 업무 목록을 바탕으로, 금융 분석, 법률 메모, 연구 자료 정리 같은 실제 화이트칼라 작업을 모델에 시킴
  • 초기 모델은 이 평가에서 인간 대비 20% 미만 수준이었다고 함. 이 측정이 생긴 뒤 OpenAI 내부에서도 “실제 업무에 도움이 되는 모델”을 더 의식하게 됨
  • 지금은 GDPval도 너무 친절한 평가가 되어가는 중. 지시문이 수백 단어로 상세해서, 실제 회사에서 상사가 “이 분석 좀 해줘”라고 던지는 모호함과 다름
  • 다음 평가는 모델이 문제 정의, 자료 찾기, 분석, 산출물 작성까지 스스로 이어가는지 보는 쪽에 가까움
평가 방식보는 것한계
객관식 시험지식과 짧은 추론빠르게 포화됨
SWE-bench Verified실제 코드 수정과 테스트 통과코딩 영역에 치우침
GDPval직업별 실제 업무 산출물지시가 너무 상세해질 수 있음
실제 사용 관찰사람들이 모델로 끝낸 업무통제된 비교가 어려움

프론티어 평가는 왜 더 복잡해지나?

  • 최신 모델은 단순히 답만 쓰지 않음. 파일을 검색하고, 코드를 실행하고, 브라우저를 조작하고, 외부 도구를 호출함
  • 그래서 긴 컨텍스트를 많이 넣는 것보다, 모델이 필요한 파일을 스스로 찾아보는 능력이 더 중요해짐. repo 전체를 prompt에 넣는 대신 모델이 grep처럼 찾고 읽는 방식임
  • Codex 평가도 그래서 어려워짐. 모델이 컴퓨터에서 행동하고, 산출물을 만들고, 테스트를 돌리고, API를 호출하는 전체 흐름을 봐야 함
  • 멀티모달 모델은 또 다른 문제임. GPT-4o의 실시간 음성 모델은 악용 가능성 때문에 공개 launch가 6주 늦춰졌고, 안전 테스트도 새로 필요했다고 설명함
  • 과학 평가도 비슷함. Ginkgo Bioworks와의 wet lab 평가에서는 모델이 단백질 합성 protocol을 제안하고, 자동화된 실험실 로봇이 실제로 실험해 수율을 측정함
  • 핵심은 평가 결과가 코드 로그가 아니라 실제 실험실 결과였다는 점임. Tejal 팀의 표현처럼 좋은 평가에서는 “pain is the moat”가 됨

개인이나 회사는 자기 eval을 어떻게 만들까?

  • Tejal의 조언은 단순함. 모델을 최대한 자주 직접 써보고, 안 됐던 일을 몇 주 뒤 다시 시도해보라는 것
  • 개인 eval은 거창할 필요 없음. 매주 반복하는 업무 5개를 고르고, 같은 입력으로 새 모델에 다시 맡겨보면 됨
  • 예시는 고객 메일 초안, 오류 로그 원인 찾기, 블로그 요약, 리서치 정리, 회의 후 할 일 추출 같은 것
  • 점수는 세 가지로만 봐도 충분함. 끝까지 처리했는가, 사람이 고치는 시간이 줄었는가, 실패 이유가 반복되는가
  • OpenAI 내부에서도 모델이 Slack, 실험 계획, 운영 업무의 첫 초안을 맡고, 부족한 부분은 다시 eval로 넣는다고 함

AI 벤치마크 포화는 무슨 뜻인가요?

모델이 평가 문제를 거의 다 맞혀서 더 이상 성능 차이를 구분하기 어려운 상태를 뜻함. 이때는 더 현실적이고 더 긴 작업을 보는 새 평가가 필요함.

GDPval은 무엇인가요?

OpenAI가 공개한 실전 업무 평가임. 금융 분석, 법률 메모, 연구 정리처럼 실제 직업에서 나오는 업무를 모델에 시키고, 사람 기준과 비교함.

1인기업도 AI 평가표를 만들어야 하나요?

만드는 게 좋음. AI 모델은 몇 주 단위로 달라지기 때문에, 예전에 실패한 작업이 금방 가능해질 수 있음. 자기 업무에서 자주 반복되는 5개 작업만 고정 평가로 두어도 어떤 모델을 어디에 써야 할지 감이 빨리 생김.

1인기업 관점

핵심은 기업들이 frontier evals are Not My Evals라는 걸 깨닫는 지점인 듯함. OpenAI가 GDPval이나 wet lab 평가로 프론티어를 재는 것과, 한 회사가 실제 업무에서 돈과 시간을 아끼는지는 다른 문제임. 1인기업도 마찬가지라서 “좋은 모델인가”보다 “내 고객 응대, 오류 처리, 결제 운영에서 실제로 덜 고치게 해주나”를 자기 기준으로 봐야 할 것 같음.


관련: Databricks CEO: AI에는 context가 필요하다모델이 하네스를 먹는다는 뜻: Sequoia도 같이 보면 좋음.

관련 글

뉴스레터 구독

매주 엄선된 1인기업 뉴스를 이메일로 받아보세요.