
로컬 ai에 관심이 많아지던 중에 중국의 ai 기업 딥시크에서 gpu 의존 줄이는 기법을 공개한다는 글을 봤다. 딥시크가 2월에 새로 출시하는 V4모델에 적용될 기술로 보인다.
지금까지의 ai 모델들은 거의 모두 대용량 vram을 가진 gpu가 있어야만 제대로 작동될 수 있었다.
심지어 500만원 정도되는 rtx 5090 조차 쓸만한 ai 모델을 돌리기에는 vram이 부족했다.
엔그램(Engram) 기법은 이미 학습한 지식을 사전처럼 바로 꺼내 쓸 수 있기 때문에 연산 자원을 효율적으로 사용할 수 있다고 한다. 원래 LLM의 주류 엔진인 트랜스포머는 모델 내부의 정적 지식인 학습된 지식을 꺼내기 위해 수조 번의 곱셈 연산을 한다면, 엔그램은 한 번의 조회만으로 정적 지식을 추출한다고 한다.
메모리 관점에서 보자면 정적 지식 조회는 값싼 메모리/CPU 쪽으로 빼고 GPU는 어려운 추론에만 집중시키는 것이다. 그래서 이 엔그램 기법대로라면 천만원이 넘는 엔비디아의 AI 가속기를 사용할 필요없이 적당한 GPU와 대용량 DRAM만 있으면 된다.
다만 문제는... 지금 DRAM도 갑자기 가격이 천정부지로 치솟고 있다는 점이다. HBM 수요 증가만으로는 설명이 안되는 상승률을 보니 아마도 많은 기업들이 반년 전부터 HBM뿐만 아니라 DRAM도 AI 에 필요하다는 것을 인지한 것 같다.
딥시크가 12일 아카이브(arXiv)에 발표한 엔그램 기법 관련 논문인 '확장 가능한 조회 기반 조건부 메모리(Conditional Memory via Scalable Lookup)' 논문은 아래 주소에서 확인할 수 있다.
https://arxiv.org/abs/2601.07372
Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
While Mixture-of-Experts (MoE) scales capacity via conditional computation, Transformers lack a native primitive for knowledge lookup, forcing them to inefficiently simulate retrieval through computation. To address this, we introduce conditional memory as
arxiv.org
관련 코드는 github에 공개되어있다.
https://github.com/deepseek-ai/Engram
GitHub - deepseek-ai/Engram: Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models - deepseek-ai/Engram
github.com
'인공지능 (AI)' 카테고리의 다른 글
| 구글의 차세대 Gemini 모델, 코드명 Snowbunny의 벤치마크 유출 (0) | 2026.02.04 |
|---|---|
| UI/UX 계의 최강 AI 모델 활용 도구 Stitch, Gemini CLI Extension으로 출시되다. (0) | 2026.01.22 |
| Gemini CLI 빠르게 활용하기(Gemini 3.0 pro 설정하는 법) (0) | 2026.01.17 |
| OpenAI의 오픈소스 ai 모델 gpt-oss-20b와 gpt-oss-120b의 성능과 사용 후기 (0) | 2026.01.05 |
| claude code 설정 완료 후 console에서 바로 적용하는 명령어 (0) | 2025.11.28 |