상용 모델을 뛰어넘는 고성능 오픈소스 TTS 모델, Qwen3-TTS

인공지능 (AI)

상용 모델을 뛰어넘는 고성능 오픈소스 TTS 모델, Qwen3-TTS

sobal 2026. 2. 4. 02:22

Qwen3-TTS는 Alibaba Cloud Qwen 팀의 오픈소스 TTS 모델 시리즈로, 2026년 1월 공개된 0.6B/1.7B 규모의 고품질·저지연 음성 생성 모델이다.

https://wikidocs.net/325432

1. Qwen3-TTS Technical Report 분석

## TTS가 중요한 이유: 실시간 아바타 챗봇을 향한 소리 없는 전쟁 2025년 말부터 2026년 초, AI 분야에서는 다양한 연구들이 진행되고 있습니다. 그중에서도 특히 주…

wikidocs.net

모델 개요

목적: 텍스트를 자연스러운 음성으로 변환하며, 음성 복제(3초 레퍼런스), 음성 디자인(자연어 지시로 새 목소리 생성), 실시간 스트리밍(97ms 지연)을 지원한다.
학습 데이터: 500만 시간+ 다국어 음성(중국어·영어·일본어·한국어 등 10개 언어 및 방언).
라이선스: Apache 2.0(완전 무료·상용 가능).
변형: 1.7B(고품질·VoiceDesign/CustomVoice/Base), 0.6B(경량·모바일).

핵심 기술

듀얼 트랙(Dual-Track) 아키텍처: 텍스트 토큰과 음성 토큰을 병렬 처리해 스트리밍 생성, Qwen3 LLM 기반으로 지시 이행(톤·속도·감정 제어)이 뛰어나다.
토크나이저:
- 25Hz: Qwen2-Audio 통합, 의미·음향 균형(DiT 디코더).
- 12Hz: 초저지연(97ms 첫 패킷), 다중 코드북·인과 ConvNet(16층).
기능: 3초 클로닝, 자연어 제어("느리게·기쁘게 말해"), 긴 음성(32k 토큰) 안정성.

벤치마크 성능

벤치마크	Qwen3-TTS (1.7B-12Hz)	ElevenLabs/MiniMax	비고
Seed-TTS WER (영어)	1.24 (1위)	2.x+	내용 정확도
Speaker Similarity	최고 (10언어)	낮음	클로닝 유사도
InstructTTS Eval	SOTA (Voice Design)	GPT-4o-mini 초과	지시 이행
Cross-Lingual (한·중)	66% 오류↓	CosyVoice3	교차 언어

전체적으로 상용 모델(ElevenLabs·MiniMax)을 능가하며, 특히 다국어·클로닝·스트리밍에서 강점을 지니고 있다.

다운로드·사용법

Hugging Face 컬렉션: https://huggingface.co/collections/Qwen/qwen3-tts (모델 5종).
GitHub: https://github.com/QwenLM/Qwen3-TTS (코드·문서).
설치: pip install -U qwen-tts 후 Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign 등 로드.
데모: https://huggingface.co/spaces/Qwen/Qwen3-TTS (브라우저 테스트).

'인공지능 (AI)' 카테고리의 다른 글

70B급 LLM을 단일 4GB GPU에서도 돌릴 수 있게 해주는 프레임워크, AirLLM (0)	2026.02.19
개인 PC에서 huggingface를 통해 오픈 소스 ai 모델 다운 받기 (0)	2026.02.04
음성 복제 가능한 세계 최초 실시간 음성 대화 AI 오픈소스, Chroma 1.0 (0)	2026.02.04
구글의 차세대 Gemini 모델, 코드명 Snowbunny의 벤치마크 유출 (0)	2026.02.04
UI/UX 계의 최강 AI 모델 활용 도구 Stitch, Gemini CLI Extension으로 출시되다. (0)	2026.01.22

현재글상용 모델을 뛰어넘는 고성능 오픈소스 TTS 모델, Qwen3-TTS

소소

Javascript 기초, 구글 AI, 안드로이드, deepseek, html, Claude, 구글 인공지능, gemma 3n, 애드몹, 안드로이드 앱 API, Ai, JetPack Compose, 코틀린, openai 증류, Gemma, 로컬 ai, 인공지능 기초, 중국 증류 기법, Gemini, claude code,

Today :
Yesterday :

소소