Simile: 인간 사회 시뮬레이터라는 새 시장, Sequoia

Simile은 인간 행동과 사회를 AI로 시뮬레이션하려는 applied AI lab. 목표는 제품, 가격, 정책, 시장 반응을 실제 세상에 던지기 전에 먼저 시험해보는 것
출발점은 Stanford의 Smallville. 25명의 AI 에이전트가 작은 마을에서 살며 기억, 계획, 성찰을 바탕으로 행동했고, Valentine’s Day 파티 같은 사회적 사건이 스스로 생김
핵심은 “LLM에게 인구통계만 넣고 흉내 내라”가 아님. Gallup 같은 패널 회사와 실제 사람 데이터를 모으고, 그 사람을 대표하는 에이전트를 만든 뒤 여러 질문과 상황에 반복 사용함
Simile은 약 1,000명 규모 실험에서 에이전트가 사람의 행동을 “사람이 자기 답을 반복하는 정도”의 85% 수준으로 예측했다고 설명
Sequoia Capital 대담. Stanford 생성형 에이전트 연구자이자 Simile 창업자 Joon Sung Park가 Smallville에서 회사 설립, CVS 고객 사례까지 직접 설명

왜 단순 설문이 아니라 시뮬레이션인가?

설문은 보통 한 번에 몇 개 질문만 던질 수 있음. 시뮬레이션은 같은 사람 집단에게 제품 이름, 가격, 광고 문구, 기능 조합을 수백 개씩 바꿔 물어볼 수 있음
Facebook 광고 실험도 실제 데이터지만, 반응하는 사람이 특정 집단에 치우칠 수 있음. Simile이 강조하는 지점은 대표성. 먼저 “말을 걸고 싶은 사람들”을 제대로 확보하는 것이 병목이라는 설명
고객의 첫 질문은 보통 concept testing. 새 제품 아이디어나 마케팅 문구를 보여주고 반응을 보는 일임
더 나아가면 시간 축과 다중 이해관계자가 들어감. 에이전트에게 “이 제품을 10분간 써보고 느낀 점을 말해달라”고 하거나, earnings call 반응을 여러 집단으로 시뮬레이션하는 식

LLM에게 “34세 여성”이라고 시키면 왜 부족한가?

Park의 답은 말과 행동의 차이. LLM은 웹과 소셜미디어에 올라온 “사람들이 말한 것”을 많이 배웠지만, 실제로 무엇을 선택하고 돈을 쓰는지는 다를 수 있음
그래서 Simile은 실제 사람에게서 짧지만 넓게 쓰일 수 있는 데이터를 모음. “당신의 인생 이야기를 들려달라” 같은 질문도 여기에 들어감
어디서 자랐고, 어떤 어려운 결정을 했고, 무엇을 중요하게 여기는지 알면 특정 태도가 실제 행동으로 이어지는 경로를 더 잘 잡을 수 있음
행동 데이터도 중요함. Simile은 무작위 통제 실험(RCT, 사람을 나눠 한쪽에만 처치를 주고 결과 차이를 보는 실험)과 가격 실험 데이터를 모델 학습에 활용한다고 설명
CVS처럼 수천만 고객을 가진 회사라면, 책임 있게 쓰는 조건 아래 자기 고객군에 맞춘 시뮬레이션을 만들고 싶어함

Simile은 결과를 어떻게 검증하나?

대상	쉬운 비유	평가 방식
설문형 질문	실제 여론조사와 AI 여론조사 비교	TVD(두 응답 분포가 얼마나 다른지 보는 거리)를 봄. 0.15보다 낮으면 의사결정에 꽤 강한 증거로 본다고 설명
개인 행동	같은 사람이 2주 뒤 같은 질문에 답하는 정도	에이전트가 사람의 자기 반복 정확도 대비 85% 수준까지 갔다고 설명
수렴하는 시뮬레이션	네트워크에서 결국 허브가 생기는 현상	작은 오류가 있어도 큰 패턴은 비슷하게 모임
갈라지는 시뮬레이션	선거, 전쟁, 장기 정책 효과	100번 돌려 몇 번 같은 결과가 나오는지 보고 신뢰 구간을 잡음

중요한 구분은 수렴과 발산. 사람 네트워크의 허브처럼 결국 비슷한 곳으로 모이는 질문은 작은 오류가 있어도 큰 패턴이 유지됨
반대로 선거처럼 작은 사건이 결과를 바꿀 수 있는 질문은 한 번의 답을 예언처럼 보면 위험함. 여러 번 돌려 가능한 결과 범위를 보는 쪽이 맞음
Park는 이 분야가 “추론 통계의 첫날”에 가깝다고 봄. 시뮬레이션에도 의사결정 기준이 새로 필요하다는 주장

어디까지 확장될 수 있나?

지금 당장 돈을 내는 용도는 시장 조사에 가까움. 제품 출시, 가격, 광고 문구, 고객 집단 반응을 빠르게 보는 것
큰 그림은 2차 효과. 자동차 회사가 전기차를 내면 전기차 반응뿐 아니라 기존 내연기관 제품 인식이 어떻게 바뀌는지도 같이 봐야 함
사회과학 쪽 질문도 가능함. 은행 예금 인출 사태, 기후 변화의 집단행동 문제, 민주주의 붕괴 신호, 거시경제 같은 것
Park는 장기적으로 “인간 사회의 CERN” 같은 시뮬레이터를 상상함. Hubble 망원경이 우주를 보는 방식을 바꿨듯, 시뮬레이션이 사회를 측정하는 새 도구가 될 수 있다는 관점

생성형 에이전트가 뭔가?

LLM에 기억, 계획, 성찰을 붙인 가상의 행위자라고 보면 됨. Smallville의 에이전트들은 일하고, 대화하고, 초대를 기억하거나 잊어버리는 식으로 행동했음. 단순 챗봇보다 “시간이 흐르는 삶”을 흉내 내는 쪽에 가까움.

인간 행동 시뮬레이션은 설문조사를 대체하나?

완전 대체라기보다 설문과 실험 사이에 새 층이 생기는 것에 가까움. 실제 사람 데이터로 에이전트를 만들고, 그 위에서 더 많은 가설을 빠르게 시험함. 최종 결정 전에는 실제 시장 검증이 필요할 수 있음.

시뮬레이션 결과를 그대로 믿어도 되나?

아님. 질문이 수렴형인지 발산형인지 먼저 봐야 함. 가격 선호처럼 분포 비교가 가능한 질문은 지표로 관리하기 쉽지만, 장기 사회 변화처럼 갈라지는 질문은 여러 번 돌려 가능한 범위를 보는 게 핵심.

1인기업 관점

이 글은 시장조사 도구라기보다 RL 데이터를 scale하게 얻으려는 방법으로 읽힘. 사람 1명에게 한 번 설문을 받는 게 아니라, 그 사람을 대표하는 에이전트를 만들어 수백 개 상황에 반복 반응시키면 preference data와 reward signal을 훨씬 싸게 늘릴 수 있다는 발상인 듯함. 1인기업 입장에서는 당장 자체 모델 학습까진 어렵겠지만, 고객 인터뷰를 그냥 요약으로 버리지 않고 “어떤 선택을 좋아하는가” 데이터로 구조화해두는 습관은 필요할 것 같음.

관련: Sequoia의 서비스가 새로운 소프트웨어다는 AI가 결과를 파는 쪽으로 가는 사업 모델을 다룹니다. AI 앱 설계 관점은 AI 시대의 마차와 같이 보면 좋습니다.

Simile: 인간 사회 시뮬레이터라는 새 시장, Sequoia (youtube.com) ↗