2025년 8월 5일, 중국을 의식해서인지, OpenAI에서 오픈소스 ai 모델인 gpt-oss-20b와 gpt-oss-120b가 출시됐다.
두 모델 모두 Apache 2.0 라이선스 및 gpt-oss 사용 정책 하에 공개됐다. 이 모델들은 Responses API와 호환되고 강한 지침 준수, 도구 사용(웹 검색·Python 코드 실행 등), 에이전트형 워크플로를 염두에 두고 설계되었고, 추론 강도(Reasoning effort) 조절, Structured Outputs, full chain-of-thought(CoT) 제공을 특징으로 한다.
자세한 소개는 아래 공식 페이지를 참고하면 된다.
https://openai.com/ko-KR/index/introducing-gpt-oss/
두 모델의 핵심 스펙을 비교해보면 다음과 같다.
| 모델 | gpt-oss-20b (Ollama: gpt-oss:20b) | gpt-oss-120b (Ollama: gpt-oss:120b) |
| 포지셔닝 | 저지연/로컬/특화(use-case) | 고추론/프로덕션/범용 |
| 총 파라미터(Total Params) | 21B | 117B |
| 토큰당 활성 파라미터(Active / token) | 3.6B | 5.1B |
| 레이어 수(Layers) | 24 | 36 |
| 총 전문가 수(Total Experts) | 32 | 128 |
| 토큰당 활성 전문가(Active Experts / token) | 4 | 4 |
| 네이티브 컨텍스트 | 128k | 128k |
| API 문서상 컨텍스트/출력 한도 | 131,072 컨텍스트 / 131,072 출력 토큰 | 131,072 컨텍스트 / 131,072 출력 토큰 |
| 권장/가능 하드웨어(공식 서술) | 16GB 메모리(vram) 내 구동 목표 | 단일 80GB(vram) GPU(H100/MI300X급) 내 구동 목표 |
아키텍처·학습(Pre-training/Post-training)에서 중요한 포인트
(1) MoE Transformer + 효율 최적화
- 두 모델 모두 Transformer 기반이고 Mixture-of-Experts(MoE) 를 사용해 “총 파라미터” 대비 추론 시 활성 파라미터를 줄여 효율을 확보한다. (120b: 5.1B 활성, 20b: 3.6B 활성)
- Dense + locally banded sparse attention을 번갈아 쓰는 패턴(설명상 GPT-3 유사)을 사용하며, 추론/메모리 효율을 위해 Grouped multi-query attention(그룹 크기 8) 을 사용한다.
- 위치 임베딩은 RoPE(Rotary Positional Embedding) 이고, 최대 128k 컨텍스트를 네이티브 지원한다.
(2) MXFP4 양자화(Quantization)로 단일 GPU/로컬 구동 현실화
- OpenAI의 공식 리포지토리는 MoE 가중치를 MXFP4로 post-training 양자화했고, 그 결과
- gpt-oss-120b는 단일 80GB GPU에서,
- gpt-oss-20b는 16GB 메모리 내에서 동작하도록 목표/평가했다.
(3) Post-training: o4-mini 유사 프로세스 + RL
- gpt-oss는 SFT(지도 미세조정) 단계 + high-compute RL 단계를 포함하는 post-training을 수행했고, OpenAI Model Spec에 맞춰 정렬(alignment) 하면서 CoT reasoning과 도구 사용을 답변 전에 적용하도록 학습했다.
그러면 이 두 모델은 무엇을 할 수 있을까?
OpenAI 문서/카드/배포 페이지에서 두 모델은 공통적으로 아래를 강하게 내세운다.
- Reasoning effort 조절 (low / medium / high): 지연시간 vs 성능/깊이 트레이드오프를 시스템 메시지 한 문장으로 지정 가능
- Full chain-of-thought(CoT) 제공(디버깅·검증에 유리하나, 최종 사용자에게 노출 용도는 아님)
- 에이전트형 도구 사용: function calling, 웹 검색/브라우징, Python 코드 실행, Structured Outputs
- Responses API 호환(API에서 모델 선택 가능)
또한 API 모델 페이지에는 Knowledge cutoff가 2024-06-01로 명시되어 있어, 최신 정보를 활용하려면 브라우징/검색/외부 지식 결합(RAG) 으로 보완하는 설계가 필요하다.
“Harmony” 포맷 요구사항
OpenAI의 공식 GitHub 리포지토리에서는 두 모델이 Harmony response format으로 학습되었고, 이 포맷을 사용해야 제대로 동작한다고 강하게 명시하고 있다. 즉, 로컬/서빙/파인튜닝/템플릿 구성에서 채팅 템플릿(프롬프트 포맷) 호환성이 품질을 좌우한다.
https://github.com/openai/gpt-oss
GitHub - openai/gpt-oss: gpt-oss-120b and gpt-oss-20b are two open-weight language models by OpenAI
gpt-oss-120b and gpt-oss-20b are two open-weight language models by OpenAI - openai/gpt-oss
github.com
안전(Safety)과 운영 시 고려사항
오픈-웨이트 모델은 배포 이후 제3자가 파인튜닝으로 안전 거부를 우회하거나 유해 목적에 최적화할 수 있기 때문에 OpenAI가 추가 완화책을 강제하거나 접근을 회수할 수 없다는 점을 위험 특성으로 명시하고 있다. 따라서 일부 환경에서는 개발자/기업이 추가 안전장치(정책, 필터링, 모니터링, 시스템 설계)를 별도로 구현해야 한다고 안내하고 있다.
또한 OpenAI는 gpt-oss-120b에 대해 Preparedness Framework 기반 평가를 수행했고, 기본 모델 및 “적대적 파인튜닝 시나리오”에서도 특정 고위험 범주에서 High capability 임계치에 도달하지 않았다고 설명하고 있다
성능
두 모델은 레이턴시와 성능의 균형을 맞추는 세 가지 추론 수준(낮음, 중간, 높음)을 지원한다. 그리고 시스템 메시지에서 문장 하나로 reasoning_effort를 간편하게 설정할 수 있다. gpt-oss-120b는 OpenAI o3‑mini보다 전체적으로 뛰어나고 경쟁 코딩(Codeforces), 일반 문제 해결(MMLU 및 HLE), 도구 호출(TauBench)에서 OpenAI o4-mini와 비슷하거나 더 우수한 성능을 보여준다. 그리고 의료 관련 쿼리(HealthBench)와 경쟁 수학(AIME 2024 & 2025)에서 o4-mini보다 나은 결과를 달성했다. gpt-oss-20b는 동일한 평가에서 OpenAI o3‑mini와 비슷하거나 더 나은 결과를 달성했고 경쟁 수학과 의료에서는 더 뛰어난 성능을 보여주었다. 더 자세한 지표는 아래와 같다(공식 페이지 지표).











간단하게 말하자면 도구를 연동했을 경우 의료와 수학 쪽에서는 120b 모델이 o3 모델보다 조금 부족하다. 그리고 20b 모델은 의료에서는 o3 mini 모델보다 상당히 좋고 수학 쪽에서는 o3보다 살짝 좋은 수준이다.
가장 중요한 코딩에서는 둘다 o3 mini와 o3 사이의 성능인데 4가지 모델 성능의 간격이 일정한 느낌이다.
전체적으로 봤을 때 20b 모델은 완전한 로컬 환경에서 다른 도구 연동 없이 사용했을 때 실무에서 사용하기에 상당히 부족한 것 같다. 120b 모델도 솔직히 만족할만한 성능은 아닌 것 같지만 그래도 쉬운 잡무를 처리할 때는 쓸만할 것 같다.
사용해보기
두 모델은 다음 huggingface에서 다운 받을 수 있는데, ollama 나 LM studio를 사용하면 이미 만들어진 GUI에서 훨씬 편하게 사용할 수 있다.
https://huggingface.co/openai/gpt-oss-120b
openai/gpt-oss-120b · Hugging Face
Try gpt-oss · Guides · Model card · OpenAI blog Welcome to the gpt-oss series, OpenAI’s open-weight models designed for powerful reasoning, agentic tasks, and versatile developer use cases. We’re releasing two flavors of these open models: gpt-oss-1
huggingface.co

ollama를 다운 받은 경우, 아래와 같이 ollama run gpt-oss:20b 또는 ollama run gpt-oss:120b 로 모델을 다운 받고 실행시키고 대화를 나눌 수 있다. 다운만 받으려면 pull을 사용하면 된다.


13세대 i7과 vram 4gb짜리 3050, 그리고 32gb의 ram을 장착한 그램 노트북에서 20b 모델을 실행시켰을 때 아래와 같이 노트북 ram과 gpu의 vram 모두 풀로 사용되었고 기초적인 답변을 하는데 대략 10~30초 정도 걸린다.




아무래도 일반 노트북에서 사용하기에는 상당히 버거워보인다. 20b 모델을 사용하려면 확실히 vram 16기가 이상의 gpu를 사용하는 게 좋을 것 같고 120b 모델은 최소한 a6000 이상의 gpu를 사용해야할 것 같다. 돈이 부족하고 속도가 느려도 상관없는 경우엔 통합 메모리를 사용하는 미니 pc 도 대안이 될 것 같다.
'인공지능 (AI)' 카테고리의 다른 글
| 딥시크(deepseek), GPU 의존 줄이는 엔그램 기법 공개 (0) | 2026.01.22 |
|---|---|
| Gemini CLI 빠르게 활용하기(Gemini 3.0 pro 설정하는 법) (0) | 2026.01.17 |
| claude code 설정 완료 후 console에서 바로 적용하는 명령어 (0) | 2025.11.28 |
| gpt 구독 바로 해지하고 환불 받는 법 (0) | 2025.09.06 |
| google cloud의 무료 교육 프로그램 (0) | 2025.08.31 |