AI 모델은 왜 계속 학습해야 하나: Engram 대담

Engram의 핵심 주장은 AI의 병목이 더 큰 모델보다 새롭고 계속 바뀌는 맥락을 배우는 능력에 있다는 것
지금의 RAG와 context engineering은 유용하지만, 회사의 일하는 방식까지 몸에 익힌 직원 같은 모델을 만들기에는 부족함
Engram은 Notion, Microsoft, Harvey 같은 작업공간의 문서, 대화, 피드백을 학습 신호로 바꿔 팀별 모델을 계속 업데이트하려 함
Sequoia Capital의 Training Data에서 Engram 공동창업자 Dan Biderman, Jessy Lin이 설명한 AI memory와 continual learning 대담

왜 긴 context만으로는 부족한가?

RAG는 Retrieval Augmented Generation의 약자. 모델이 외부 문서나 DB를 검색해서 관련 내용을 prompt에 붙인 뒤 답하는 방식임
이 방식은 지금도 중요함. 방금 바뀐 정책, 정확한 계약서 원문, 최신 고객 정보처럼 그대로 확인해야 하는 데이터에는 RAG가 맞음
문제는 모든 걸 매번 검색해서 읽는 방식이 인간의 기억과 다르다는 점임. 오래 일한 직원은 어제 본 모든 문서를 다시 읽지 않아도, 회사의 우선순위와 말투와 예외 처리 방식을 어느 정도 몸에 익힘
Engram이 보는 빈틈이 여기 있음. 팀이 하루에 수천만 토큰의 문서, 메시지, 업무 흔적을 만들면 단순 저장소는 금방 비싸고 시끄러워짐. 중요한 건 저장이 아니라 어떤 맥락을 모델 안에 압축해 넣을지 결정하는 것

Engram은 기억을 전부 모델 가중치에 넣자는 얘기를 하지 않음. 모델 가중치는 모델 내부 숫자이고, 반복적으로 쓰는 패턴을 압축해 담는 공간에 가까움
반대로 외부 도구와 RAG는 자주 바뀌거나 정확한 원문 확인이 필요한 정보에 맞음
adapter fine-tuning은 base model 전체를 다시 훈련하지 않고 LoRA 같은 작은 붙임층을 조정하는 방식임. Engram은 이런 adapter, supervised fine-tuning, RL, distillation을 조합해 문서와 상호작용을 훈련 데이터로 바꾸려 함

큰 context window는 편하지만 공짜가 아님. agent가 며칠 동안 일하면서 같은 문서와 로그를 반복해서 읽으면, 매번 token과 GPU 메모리를 태움
KV cache는 모델이 방금 읽은 token을 다시 계산하지 않기 위해 GPU 메모리에 붙잡아두는 중간 계산값임. 대담에서는 한 위키피디아 글의 KV cache가 70B Llama급 모델에서 수십 GB까지 커질 수 있다고 설명함
반대로 모델 weights는 훨씬 압축적임. 70B 모델의 weights가 대략 100GB라면, 그 안에는 인터넷 전체에서 배운 패턴이 어느 정도 압축돼 있음
Engram의 가설은 간단함. 매번 10만 token을 읽히는 대신, offline training으로 중요한 정보를 작고 재사용 가능한 형태로 압축하면 inference 비용과 지연을 크게 줄일 수 있다는 것

지금 많은 AI 제품은 frontier model을 고르고, prompt와 tool을 붙이고, retrieval을 다듬는 방식으로 움직임
continual learning 제품은 루프가 다름. 사용자의 작업 흔적, 수정, 승인, 실패가 다음 모델 업데이트의 재료가 됨
그래서 제품팀과 연구팀이 분리되기 어렵다고 봄. UI에서 생긴 작은 피드백이 training signal이 되고, training 결과가 다시 UI와 workflow를 바꾸기 때문
Engram은 처음부터 개인 전체가 아니라 팀 단위를 먼저 봄. 팀은 문서와 workflow가 더 안정적이고, 여러 사람이 같은 맥락을 공유해서 학습 효과를 검증하기 쉬움
장기적으로는 사람마다, 팀마다, 회사마다 다른 모델이 생기는 그림임. 하나의 범용 모델이 모든 일을 기억하는 게 아니라, 각 작업공간의 경험이 다른 지능으로 쌓이는 방향

아님. Engram도 RAG를 대체물로 보지 않고 보완물로 봄. RAG는 정확한 원문 검색에 강하고, 모델 내부 학습은 무엇을 찾아야 하는지 아는 직관과 반복 패턴에 강함.

fine-tuning은 한 번 모델을 조정하는 방식일 수 있음. continual learning은 문서, 업무 로그, 피드백이 계속 들어오고 그 일부가 반복적으로 모델 업데이트에 반영되는 루프에 가까움.

팀은 개인보다 데이터가 많고 업무 기준도 안정적임. 어떤 답이 좋은 답인지 동료와 고객 반응으로 검증하기 쉬워서, 학습 루프를 제품으로 만들기 더 좋은 출발점임.

Dwarkesh의 색소폰 예시가 핵심임.

보통 색소폰을 배우려면:

직접 불어봄
소리가 이상함
손가락/입 모양/호흡을 조정함
다시 해봄
선생님이 피드백 줌
근육 기억이 생김

이렇게 배움.

근데 LLM식으로 배우면 이렇게 됨.

첫 번째 사람이 색소폰을 처음 불어봄. 실패함.
실패한 이유를 notes로 적음.
두 번째 사람이 그 notes를 읽음. 그런데 얘도 색소폰 처음임.
또 실패함. 또 notes를 적음.
세 번째 사람이 그 notes를 읽음. 또 처음임.

이런 방식으로는 색소폰을 잘 배우기 어렵다는 거야.

왜냐하면 진짜 필요한 건 notes가 아니라:

반복 경험
몸에 밴 skill
immediate feedback
누적된 감각
장기 기억

이기 때문임.