인공지능 (AI)

상용 모델을 뛰어넘는 고성능 오픈소스 TTS 모델, Qwen3-TTS

sobal 2026. 2. 4. 02:22

Qwen3-TTS는 Alibaba Cloud Qwen 팀의 오픈소스 TTS 모델 시리즈로, 2026년 1월 공개된 0.6B/1.7B 규모의 고품질·저지연 음성 생성 모델이다.

 

https://wikidocs.net/325432

 

1. Qwen3-TTS Technical Report 분석

## TTS가 중요한 이유: 실시간 아바타 챗봇을 향한 소리 없는 전쟁 2025년 말부터 2026년 초, AI 분야에서는 다양한 연구들이 진행되고 있습니다. 그중에서도 특히 주…

wikidocs.net

 

모델 개요

  • 목적: 텍스트를 자연스러운 음성으로 변환하며, 음성 복제(3초 레퍼런스), 음성 디자인(자연어 지시로 새 목소리 생성), 실시간 스트리밍(97ms 지연)을 지원한다.
  • 학습 데이터: 500만 시간+ 다국어 음성(중국어·영어·일본어·한국어 등 10개 언어 및 방언).
  • 라이선스: Apache 2.0(완전 무료·상용 가능).
  • 변형: 1.7B(고품질·VoiceDesign/CustomVoice/Base), 0.6B(경량·모바일).

 

핵심 기술

  • 듀얼 트랙(Dual-Track) 아키텍처: 텍스트 토큰과 음성 토큰을 병렬 처리해 스트리밍 생성, Qwen3 LLM 기반으로 지시 이행(톤·속도·감정 제어)이 뛰어나다.
  • 토크나이저:
    • 25Hz: Qwen2-Audio 통합, 의미·음향 균형(DiT 디코더).
    • 12Hz: 초저지연(97ms 첫 패킷), 다중 코드북·인과 ConvNet(16층).
  • 기능: 3초 클로닝, 자연어 제어("느리게·기쁘게 말해"), 긴 음성(32k 토큰) 안정성.

벤치마크 성능

벤치마크 Qwen3-TTS (1.7B-12Hz) ElevenLabs/MiniMax 비고
Seed-TTS WER (영어) 1.24 (1위) 2.x+ 내용 정확도 
Speaker Similarity 최고 (10언어) 낮음 클로닝 유사도 
InstructTTS Eval SOTA (Voice Design) GPT-4o-mini 초과 지시 이행
Cross-Lingual (한·중) 66% 오류↓ CosyVoice3 교차 언어
 

전체적으로 상용 모델(ElevenLabs·MiniMax)을 능가하며, 특히 다국어·클로닝·스트리밍에서 강점을 지니고 있다.

다운로드·사용법

반응형