반응형

deepseek 3

중국의 AI 기업에서 모델을 학습시킬 저비용 고품질 데이터를 얻은 방법

1주 전 쯤에 흥미로운 기사를 봤다. 중국의 AI 기업에서 모델을 학습시킨 방식이 미국의 고성능 모델들의 응답을 활용한 지식 증류 기법이라는 내용의 기사였다. Anthropic에서는 중국의 DeepSeek, Moonshot, MiniMax 가 가짜 계정 2만 4천개를 활용해 클로드를 대상으로 대규모 증류 공격을 했다고 한다. 특히 minimax의 경우 1300만회의 증류 공격을 했다고 한다. 대화당 10~25K 토큰이 사용되었다고 가정할 때 총 약 1,500억~4,000억 개의 토큰이 추출된 것으로 추정되는데 이정도면 파인튜닝에 필요한 양을 아득히 넘어서 아마 메인 모델 사전학습에 사용되지 않았을까 싶다.https://www.finance-scope.com/article/view/scp202602240..

인공지능 (AI) 2026.03.04

딥시크(deepseek), GPU 의존 줄이는 엔그램 기법 공개

로컬 ai에 관심이 많아지던 중에 중국의 ai 기업 딥시크에서 gpu 의존 줄이는 기법을 공개한다는 글을 봤다. 딥시크가 2월에 새로 출시하는 V4모델에 적용될 기술로 보인다. 지금까지의 ai 모델들은 거의 모두 대용량 vram을 가진 gpu가 있어야만 제대로 작동될 수 있었다.심지어 500만원 정도되는 rtx 5090 조차 쓸만한 ai 모델을 돌리기에는 vram이 부족했다. 엔그램(Engram) 기법은 이미 학습한 지식을 사전처럼 바로 꺼내 쓸 수 있기 때문에 연산 자원을 효율적으로 사용할 수 있다고 한다. 원래 LLM의 주류 엔진인 트랜스포머는 모델 내부의 정적 지식인 학습된 지식을 꺼내기 위해 수조 번의 곱셈 연산을 한다면, 엔그램은 한 번의 조회만으로 정적 지식을 추출한다고 한다. 메모리 관점에..

인공지능 (AI) 2026.01.22

2025-03-04 AI 실사용 느낌

현재 여러 AI를 사용하면서 개발에 활용해보고 있는데 오늘 기준으로 각 AI가 어떤 느낌인지 정리해보고자 한다.1. OpenAI gpt o1, o3 mini high초기에는 OpenAI의 gpt가 성능이 압도적이었는데 지금은 조금 많이 애매해진 느낌이다. 물론 성능만 따졌을 때는 선두 자리를 빼앗기지는 않은 것 같지만 코드를 생성시킬 때 토큰을 절약하는 느낌이 너무 강하다. 그리고 생각하는 과정을 deepseek나 grok3 만큼 자세하게 보여주지 않는다는 점이 매우 아쉽다. 그래도 아직까지 기능이 제일 많은 것 같고 실제로도 가장 많이 사용하고 있는 ai 모델이다. 2. Anthropic의 claude 3.7 sonnet오늘 기준으로 굉장히 많은 호평을 받고 있는 ai이다. 실시간으로 포켓몬 게임도..

인공지능 (AI) 2025.03.05
반응형