2026.01.22 技術リリース · Apache 2.0 オープンソース

Qwen3-TTS
次世代オープンソース音声生成アーキテクチャ

単なる音声クローンではなく、TTS インタラクション体験の再構築です。97ms の超低遅延からDual-Track ストリーミングアーキテクチャまで、Qwen チームの最新技術的ブレークスルーを完全に解析します。

ライブデモアーキテクチャを見る

3秒の高速クローン (VoiceClone)

わずか3秒の参照オーディオで声の特徴を抽出。言語間のクローン（例：中国語の音声から英語の発話を生成）や、動物の鳴き声などの楽しい機能もサポート。

自然言語による音声デザイン (VoiceDesign)

プロンプトで声を創造：「しわがれた老人の男性、悲しげな口調」。モデルは文脈内の感情、韻律、リズムの要求を正確に理解します。

97ms の極低遅延

1文字入力するだけで最初のオーディオパケットを出力。リアルタイム翻訳や AI カスタマーサービスなど、遅延に敏感なシナリオに最高のエクスペリエンスを提供します。

Interactive Preview

実機デモ環境

VoiceDesign（音声デザイン）と VoiceClone（音声クローン）機能を以下で直接体験できます。

Space Status: Running

Hugging Face Space に接続中...

コアアーキテクチャ深層解析

Qwen3-TTS はなぜ低遅延と高品質を両立できるのか？

Dual-Track ストリーミングアーキテクチャ

従来の TTS モデルは「ストリーミング（低遅延）」と「非ストリーミング（高音質）」のトレードオフが必要でした。Qwen3-TTS は革新的な Dual-Track ハイブリッドアーキテクチャを提案しました。

これにより、モデルは両方のタスクを同時に処理できます。ストリーミングモードでは、97ms の初期遅延を実現しています。

12Hz SOTA Tokenizer

音声生成の品質は Tokenizer の効率に大きく依存します。Qwen3 は最新の 12Hz マルチコードブック Tokenizer を採用しました。

従来の 25Hz や 50Hz に比べ、12Hz は極めて高い圧縮効率を意味し、モデルが予測すべきトークン数を大幅に削減します。

モデルサイズと利用シーン

0.6B バージョン (Base)

エッジ展開や低計算力環境向けに設計。コアとなる TTS 機能を維持しながら、VRAM 使用量と推論コストを大幅に削減。

1.7B / 1.8B バージョン (Pro)

究極のパフォーマンスと制御力を追求。パラメータ数の増加により意味理解能力が向上し、複雑なプロンプト指示に対応。

競合比較：一目瞭然の優位性

機能次元	Qwen3-TTS	GPT-4o-mini-tts (類似)	従来のOSSモデル
指示追従能力	SOTA 級 (精密な制御)	強	弱 / 特定の形式が必要
音声カスタマイズ	一文のプロンプトまたは 3秒の音声	音声クローンのみ	微調整 / 長い録音が必要
ストリーミング遅延	97ms (Dual-Track)	約 200-300ms	通常 >500ms
展開の柔軟性	完全オープンソース (0.6B/1.7B)	クローズド API	ばらつきがある

モデルとドキュメント

GitHub リポジトリ

ソースコードと微調整ガイド

Hugging Face

モデルの重みダウンロード

ModelScope

高速ダウンロード (中国国内)

技術レポート

公式ブログを読む