2026.01.22 기술 출시 · Apache 2.0 오픈 소스

Qwen3-TTS
차세대 오픈 소스 오디오 아키텍처

단순한 음성 복제를 넘어 TTS 상호작용 경험을 재구성합니다. 97ms 초저지연에서 Dual-Track 스트리밍 아키텍처까지, Qwen 팀의 최신 기술 혁신을 완벽하게 분석합니다.

라이브 데모 아키텍처 보기

3초 초고속 클론 (VoiceClone)

단 3초의 참조 오디오만으로 음색 특징을 추출합니다. 언어 간 클론(예: 중국어 오디오로 영어 음성 생성) 및 동물 소리 모방 같은 재미있는 기능을 지원합니다.

자연어 음색 디자인 (VoiceDesign)

프롬프트로 목소리를 생성하세요: "쉰 목소리의 노인 남성, 슬픈 어조". 모델은 문맥 내의 감정, 운율, 리듬 요구 사항을 정확하게 이해합니다.

97ms 극한의 저지연

단일 문자 입력 스트리밍 후 즉시 첫 번째 오디오 패킷을 출력합니다. 실시간 통역, AI 고객 서비스 등 지연 시간에 민감한 시나리오에 최고의 경험을 제공합니다.

Interactive Preview

실기 데모 환경

아래에서 VoiceDesign(음색 디자인)과 VoiceClone(음색 클론) 기능을 직접 체험해 보세요.

Space Status: Running

Hugging Face Space 연결 중...

핵심 아키텍처 심층 분석

Qwen3-TTS는 어떻게 저지연과 고품질을 동시에 달성했는가?

Dual-Track 스트리밍 아키텍처

기존 TTS 모델은 "스트리밍(저지연)"과 "비스트리밍(고음질)" 사이에서 타협해야 했습니다. Qwen3-TTS는 혁신적인 Dual-Track 하이브리드 아키텍처를 제안했습니다.

이를 통해 모델은 두 작업을 동시에 처리할 수 있습니다. 스트리밍 모드에서는 97ms의 첫 패킷 지연 시간을 달성했습니다.

12Hz SOTA Tokenizer

음성 생성 품질은 Tokenizer의 효율성에 크게 좌우됩니다. Qwen3는 최신 12Hz 멀티 코드북 Tokenizer를 채택했습니다.

기존 25Hz나 50Hz에 비해 12Hz는 극도로 높은 압축 효율을 의미하며, 모델이 예측해야 할 토큰 수를 대폭 줄여줍니다.

모델 크기 및 시나리오

0.6B 버전 (Base)

엣지 배포 및 저사양 환경을 위해 설계되었습니다. 핵심 TTS 기능을 유지하면서 VRAM 사용량과 추론 비용을 크게 줄였습니다.

1.7B / 1.8B 버전 (Pro)

극한의 성능과 제어력을 추구합니다. 더 큰 매개변수는 더 강력한 의미 이해 능력을 제공하여 복잡한 프롬프트 지침을 처리합니다.

경쟁 제품 비교: 한눈에 보는 장점

기능 차원	Qwen3-TTS	GPT-4o-mini-tts (유사)	기존 오픈 소스
지침 준수 능력	SOTA 급 (정밀 제어)	강함	약함 / 특정 형식 필요
음색 사용자 정의	한 문장 프롬프트 또는 3초 오디오	오디오 클론만 가능	미세 조정 / 긴 녹음 필요
스트리밍 지연	97ms (Dual-Track)	약 200-300ms	보통 >500ms
배포 유연성	전체 오픈 소스 (0.6B/1.7B)	비공개 API	제각각임

모델 및 문서 받기

GitHub 저장소

소스 코드 및 파인 튜닝 가이드

Hugging Face

모델 가중치 다운로드

ModelScope

빠른 다운로드 (중국 내)

기술 보고서

공식 블로그 읽기