인공지능 (AI)

중국의 AI 기업에서 모델을 학습시킬 저비용 고품질 데이터를 얻은 방법

sobal 2026. 3. 4. 21:11

1주 전 쯤에 흥미로운 기사를 봤다. 중국의 AI 기업에서 모델을 학습시킨 방식이 미국의 고성능 모델들의 응답을 활용한 지식 증류 기법이라는 내용의 기사였다. 

Anthropic에서는 중국의 DeepSeek, Moonshot, MiniMax 가 가짜 계정 2만 4천개를 활용해 클로드를 대상으로 대규모 증류 공격을 했다고 한다. 특히 minimax의 경우 1300만회의 증류 공격을 했다고 한다. 대화당 10~25K 토큰이 사용되었다고 가정할 때 총 약 1,500억~4,000억 개의 토큰이 추출된 것으로 추정되는데 이정도면 파인튜닝에 필요한 양을 아득히 넘어서 아마 메인 모델 사전학습에 사용되지 않았을까 싶다.

https://www.finance-scope.com/article/view/scp202602240001

 

앤트로픽 "中 3개사, 가짜 계정으로 클로드 데이터 1600만건 탈취"

오픈AI에 이어 앤트로픽도 중국 인공지능(AI) 기업들이 자사 모델을 무단으로 복제했다며 공개적으로 비판하고 나섰다. 앤트로픽은 기술 유출을 막기

www.finance-scope.com

https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks

 

Detecting and preventing distillation attacks

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

www.anthropic.com

 

OpenAI에서도 딥시크가 본인의 회사와 다른 미국 기업들을 대상으로 증류 공격을 통해 모델을 학습시켰다고 말했다.

https://www.reuters.com/world/china/openai-accuses-deepseek-distilling-us-models-gain-advantage-bloomberg-news-2026-02-12/

https://marketin.edaily.co.kr/News/ReadE?newsId=03886806645350192

 

“中딥시크, 美 AI 기술에 무임승차”…오픈AI, 의회에 경고

챗GPT 개발사인 오픈AI가 미 의회에 중국 인공지능(AI) 스타트업 딥시크가 차세대 모델 훈련을 위해 AI 모델을 무단으로 이용하고 있다고 경고했다.샘 올트먼 오픈AI 최고경영자(CEO)(사진=AFP)12일(현

marketin.edaily.co.kr

 

사실 지식 증류 기법을 활용해 데이터를 모으고 이를 모델 학습에 사용한다는 생각은 기사를 보기 전에 한 번도 해본 적이 없는 것 같다. 근데 기사를 보고 곰곰히 생각해보니 직접 데이터를 모으는 방법보다 단돈 몇 만원의 구독료를 내고 claude나 gpt를 활용하는게 훨씬 비용적으로 저렴할 것 같기는 하다. 특히 OpenAI의 경우 plus만 구독해도 사용량 제한이 굉장히 널널하고 pro 모델을 사용할 경우 거의 무한에 가까운 응답을 받을 수 있어서 고품질 데이터를 굉장히 저렴한 비용으로 얻을 수 있을 것 같다. 

하지만 이런 방식은 아쉽게도 OpenAI와 Anthropic의 약관상 계약 위반이라고 한다. 

 

 

반응형