2026.01.22 技術發布 · Apache 2.0 開源

Qwen3-TTS
下一代開源語音生成架構

不僅是聲音複製,更是對 TTS 互動體驗的重構。從 97ms 極低延遲Dual-Track 雙軌串流架構,全面解析阿里通義千問團隊的最新技術突破。

3秒極速複製 (VoiceClone)

僅需 3 秒參考音訊,即可提取音色特徵。支援跨語言複製(如用中文音訊生成英文語音),甚至包含動物擬聲等趣味複製能力。

自然語言音色設計 (VoiceDesign)

透過 Prompt 指令創造聲音:「一個沙啞的老年男性,語氣悲傷」。模型能夠精準理解語意中的情感、韻律和節奏要求。

97ms 極致低延遲

在串流輸入單個字元後即可輸出首包音訊。對於即時翻譯、AI 客服等對延遲敏感的場景,提供了端到端的極致體驗。

Interactive Preview

實機展示環境

直接在下方體驗 VoiceDesign(音色設計)與 VoiceClone(音色複製)功能。

正在連接 Hugging Face Space...

核心架構深度解析

Qwen3-TTS 為何能實現如此低的延遲與高品質的生成?

Dual-Track 雙軌串流架構

傳統 TTS 模型往往需要在「串流生成(低延遲)」與「非串流生成(高音質)」之間做取捨。Qwen3-TTS 創新性地提出了 Dual-Track 混合架構

該架構允許模型同時處理串流與非串流任務。在串流模式下,模型透過優化的因果注意力機制,實現了 97ms 的首包延遲。

12Hz SOTA Tokenizer

語音生成的品質很大程度上取決於 Tokenizer 的編碼效率。Qwen3 採用了最新的 12Hz 多碼本 Tokenizer

相比傳統的 25Hz 或 50Hz 編碼,12Hz 意味著極高的壓縮效率,模型需要預測的 Token 數量大幅減少。

模型尺寸與應用場景

0.6B 版本 (Base)

專為邊緣端部署和低算力環境設計。在保持核心 TTS 能力的前提下,極大地降低了視訊記憶體佔用和推論開銷。

1.7B / 1.8B 版本 (Pro)

追求極致的效能與控制力。更大的參數帶來了更強的語意理解能力,能夠處理更複雜的 Prompt 指令。

競品對比:優勢一目瞭然

功能維度Qwen3-TTSGPT-4o-mini-tts (類比)傳統開源模型
指令遵循能力SOTA 級 (精準控制)弱 / 需特定格式
音色客製化門檻一句話 Prompt 或 3秒音訊僅音訊複製需微調 / 長錄音
串流延遲97ms (Dual-Track)約 200-300ms通常 >500ms
部署靈活性全開源 (0.6B/1.7B)閉源 API參差不齊