3秒極速複製 (VoiceClone)
僅需 3 秒參考音訊,即可提取音色特徵。支援跨語言複製(如用中文音訊生成英文語音),甚至包含動物擬聲等趣味複製能力。
自然語言音色設計 (VoiceDesign)
透過 Prompt 指令創造聲音:「一個沙啞的老年男性,語氣悲傷」。模型能夠精準理解語意中的情感、韻律和節奏要求。
97ms 極致低延遲
在串流輸入單個字元後即可輸出首包音訊。對於即時翻譯、AI 客服等對延遲敏感的場景,提供了端到端的極致體驗。
Interactive Preview
實機展示環境
直接在下方體驗 VoiceDesign(音色設計)與 VoiceClone(音色複製)功能。
Space Status: Running
正在連接 Hugging Face Space...
核心架構深度解析
Qwen3-TTS 為何能實現如此低的延遲與高品質的生成?
Dual-Track 雙軌串流架構
傳統 TTS 模型往往需要在「串流生成(低延遲)」與「非串流生成(高音質)」之間做取捨。Qwen3-TTS 創新性地提出了 Dual-Track 混合架構。
該架構允許模型同時處理串流與非串流任務。在串流模式下,模型透過優化的因果注意力機制,實現了 97ms 的首包延遲。
該架構允許模型同時處理串流與非串流任務。在串流模式下,模型透過優化的因果注意力機制,實現了 97ms 的首包延遲。
12Hz SOTA Tokenizer
語音生成的品質很大程度上取決於 Tokenizer 的編碼效率。Qwen3 採用了最新的 12Hz 多碼本 Tokenizer。
相比傳統的 25Hz 或 50Hz 編碼,12Hz 意味著極高的壓縮效率,模型需要預測的 Token 數量大幅減少。
相比傳統的 25Hz 或 50Hz 編碼,12Hz 意味著極高的壓縮效率,模型需要預測的 Token 數量大幅減少。
模型尺寸與應用場景
0.6B 版本 (Base)
專為邊緣端部署和低算力環境設計。在保持核心 TTS 能力的前提下,極大地降低了視訊記憶體佔用和推論開銷。
1.7B / 1.8B 版本 (Pro)
追求極致的效能與控制力。更大的參數帶來了更強的語意理解能力,能夠處理更複雜的 Prompt 指令。
競品對比:優勢一目瞭然
| 功能維度 | Qwen3-TTS | GPT-4o-mini-tts (類比) | 傳統開源模型 |
|---|---|---|---|
| 指令遵循能力 | SOTA 級 (精準控制) | 強 | 弱 / 需特定格式 |
| 音色客製化門檻 | 一句話 Prompt 或 3秒音訊 | 僅音訊複製 | 需微調 / 長錄音 |
| 串流延遲 | 97ms (Dual-Track) | 約 200-300ms | 通常 >500ms |
| 部署靈活性 | 全開源 (0.6B/1.7B) | 閉源 API | 參差不齊 |