2026.01.22 技术发布 · Apache 2.0 开源

Qwen3-TTS
下一代开源语音生成架构

不仅是声音克隆,更是对 TTS 交互体验的重构。从 97ms 极低延迟Dual-Track 双轨流式架构,全面解析阿里通义千问团队的最新技术突破。

3秒极速克隆 (VoiceClone)

仅需 3 秒参考音频,即可提取音色特征。支持跨语言克隆(如用中文音频生成英文语音),甚至包含动物拟声等趣味克隆能力。

自然语言音色设计 (VoiceDesign)

通过 Prompt 指令创造声音:“一个沙哑的老年男性,语气悲伤”。模型能够精准理解语义中的情感、韵律和节奏要求。

97ms 极致低延迟

在流式输入单个字符后即可输出首包音频。对于实时翻译、AI 客服等对延迟敏感的场景,提供了端到端的极致体验。

Interactive Preview

实机演示环境

直接在下方体验 VoiceDesign(音色设计)与 VoiceClone(音色克隆)功能。

正在连接 Hugging Face Space...

核心架构深度解析

Qwen3-TTS 为何能实现如此低的延迟与高质量的生成?

Dual-Track 双轨流式架构

传统 TTS 模型往往需要在“流式生成(低延迟)”与“非流式生成(高音质)”之间做取舍。Qwen3-TTS 创新性地提出了 Dual-Track 混合架构

该架构允许模型同时处理流式与非流式任务。在流式模式下,模型通过优化的因果注意力机制,实现了 97ms 的首包延迟。

12Hz SOTA Tokenizer

语音生成的质量很大程度上取决于 Tokenizer 的编码效率。Qwen3 采用了最新的 12Hz 多码本 Tokenizer

相比传统的 25Hz 或 50Hz 编码,12Hz 意味着极高的压缩效率,模型需要预测的 Token 数量大幅减少。

模型尺寸与应用场景

0.6B 版本 (Base)

专为端侧部署和低算力环境设计。在保持核心 TTS 能力的前提下,极大地降低了显存占用和推理开销。

1.7B / 1.8B 版本 (Pro)

追求极致的性能与控制力。更大的参数量带来了更强的语义理解能力,能够处理更复杂的 Prompt 指令。

竞品对比:优势一目了然

功能维度Qwen3-TTSGPT-4o-mini-tts (类比)传统开源模型
指令遵循能力SOTA 级 (精准控制)弱 / 需特定格式
音色定制门槛一句话 Prompt 或 3秒音频仅音频克隆需微调 / 长录音
流式延迟97ms (Dual-Track)约 200-300ms通常 >500ms
部署灵活性全开源 (0.6B/1.7B)闭源 API参差不齐