2026.01.22 技術リリース · Apache 2.0 オープンソース

Qwen3-TTS
次世代オープンソース音声生成アーキテクチャ

単なる音声クローンではなく、TTS インタラクション体験の再構築です。97ms の超低遅延からDual-Track ストリーミングアーキテクチャまで、Qwen チームの最新技術的ブレークスルーを完全に解析します。

3秒の高速クローン (VoiceClone)

わずか3秒の参照オーディオで声の特徴を抽出。言語間のクローン(例:中国語の音声から英語の発話を生成)や、動物の鳴き声などの楽しい機能もサポート。

自然言語による音声デザイン (VoiceDesign)

プロンプトで声を創造:「しわがれた老人の男性、悲しげな口調」。モデルは文脈内の感情、韻律、リズムの要求を正確に理解します。

97ms の極低遅延

1文字入力するだけで最初のオーディオパケットを出力。リアルタイム翻訳や AI カスタマーサービスなど、遅延に敏感なシナリオに最高のエクスペリエンスを提供します。

Interactive Preview

実機デモ環境

VoiceDesign(音声デザイン)と VoiceClone(音声クローン)機能を以下で直接体験できます。

Hugging Face Space に接続中...

コアアーキテクチャ深層解析

Qwen3-TTS はなぜ低遅延と高品質を両立できるのか?

Dual-Track ストリーミングアーキテクチャ

従来の TTS モデルは「ストリーミング(低遅延)」と「非ストリーミング(高音質)」のトレードオフが必要でした。Qwen3-TTS は革新的な Dual-Track ハイブリッドアーキテクチャを提案しました。

これにより、モデルは両方のタスクを同時に処理できます。ストリーミングモードでは、97ms の初期遅延を実現しています。

12Hz SOTA Tokenizer

音声生成の品質は Tokenizer の効率に大きく依存します。Qwen3 は最新の 12Hz マルチコードブック Tokenizer を採用しました。

従来の 25Hz や 50Hz に比べ、12Hz は極めて高い圧縮効率を意味し、モデルが予測すべきトークン数を大幅に削減します。

モデルサイズと利用シーン

0.6B バージョン (Base)

エッジ展開や低計算力環境向けに設計。コアとなる TTS 機能を維持しながら、VRAM 使用量と推論コストを大幅に削減。

1.7B / 1.8B バージョン (Pro)

究極のパフォーマンスと制御力を追求。パラメータ数の増加により意味理解能力が向上し、複雑なプロンプト指示に対応。

競合比較:一目瞭然の優位性

機能次元Qwen3-TTSGPT-4o-mini-tts (類似)従来のOSSモデル
指示追従能力SOTA 級 (精密な制御)弱 / 特定の形式が必要
音声カスタマイズ一文のプロンプト または 3秒の音声音声クローンのみ微調整 / 長い録音が必要
ストリーミング遅延97ms (Dual-Track)約 200-300ms通常 >500ms
展開の柔軟性完全オープンソース (0.6B/1.7B)クローズド APIばらつきがある