22.01.2026 Tech Release · Apache 2.0 Open Source

Qwen3-TTS
Open-Source-Audioarchitektur der nächsten Generation

Nicht nur Stimmenklonen, sondern eine Rekonstruktion des TTS-Interaktionserlebnisses. Von 97ms Ultra-Low-Latency bis zur Dual-Track-Streaming-Architektur – wir analysieren den neuesten Durchbruch des Qwen-Teams.

Live-Demo Architektur ansehen

3s Sofort-Klonen (VoiceClone)

Extrahieren Sie Stimmmerkmale mit nur 3 Sekunden Referenzaudio. Unterstützt sprachübergreifendes Klonen (z. B. Erzeugung englischer Sprache aus chinesischem Audio) und sogar Tierimitationen.

Natürlichsprachliches Voice Design

Erstellen Sie Stimmen per Prompt: "Ein heiserer älterer Mann, trauriger Tonfall". Das Modell versteht präzise Emotions-, Prosodie- und Rhythmusanforderungen innerhalb der Semantik.

97ms Extrem niedrige Latenz

Gibt das erste Audiopaket bereits nach dem Streaming eines einzelnen Zeichens aus. Bietet ein extremes End-to-End-Erlebnis für latenzempfindliche Szenarien wie Echtzeitübersetzung und KI-Kundenservice.

Interactive Preview

Live-Demo-Umgebung

Erleben Sie VoiceDesign- und VoiceClone-Funktionen direkt unten.

Space Status: Running

Verbindung zu Hugging Face Space...

Architektur Deep Dive

Wie erreicht Qwen3-TTS so niedrige Latenz und hohe Qualität?

Dual-Track Streaming Architektur

Herkömmliche TTS-Modelle müssen oft zwischen "Streaming (niedrige Latenz)" und "Non-Streaming (hohe Qualität)" abwägen. Qwen3-TTS schlägt die innovative Dual-Track Hybrid Architektur vor.

Dies ermöglicht dem Modell, beide Aufgaben gleichzeitig zu verarbeiten. Im Streaming-Modus erreicht es eine Latenz von 97ms für das erste Paket.

12Hz SOTA Tokenizer

Die Qualität der Audiogenerierung hängt stark von der Effizienz des Tokenizers ab. Qwen3 verwendet den neuesten 12Hz Multi-Codebook Tokenizer.

Im Vergleich zu herkömmlichen 25Hz oder 50Hz bedeutet 12Hz eine extreme Kompressionseffizienz, wodurch die vom Modell vorherzusagenden Token drastisch reduziert werden.

Modellgrößen & Szenarien

0.6B Version (Base)

Entwickelt für Edge-Deployment und Umgebungen mit geringer Rechenleistung. Behält die Kern-TTS-Funktionen bei und reduziert gleichzeitig VRAM-Nutzung und Inferenzkosten erheblich.

1.7B / 1.8B Version (Pro)

Für ultimative Leistung und Kontrolle. Größere Parameter ermöglichen ein stärkeres semantisches Verständnis für komplexe Prompt-Anweisungen.

Vergleich: Vorteile auf einen Blick

Feature	Qwen3-TTS	GPT-4o-mini-tts (Analog)	Traditionelles Open Source
Befolgung von Anweisungen	SOTA (Präzise Kontrolle)	Stark	Schwach / Bestimmtes Format
Stimmanpassung	1-Satz-Prompt oder 3s Audio	Nur Audio-Klon	Feinabstimmung erforderlich
Streaming-Latenz	97ms (Dual-Track)	Ca. 200-300ms	Meist >500ms
Bereitstellung	Open Source (0.6B/1.7B)	Geschlossene API	Unterschiedlich

Modelle & Dokumente abrufen

GitHub Repo

Code & Fine-Tuning Guide

Hugging Face

Modellgewichte

ModelScope

Schneller Download (CN)

Technischer Bericht

Offiziellen Blog lesen