22.01.2026 Sortie Technique · Open Source Apache 2.0

Qwen3-TTS
Architecture Audio Open Source de Nouvelle Génération

Pas seulement du clonage vocal, mais une reconstruction de l'expérience d'interaction TTS. De la latence ultra-faible de 97ms à l'architecture de streaming Dual-Track, nous analysons la dernière percée de l'équipe Qwen.

Clonage Instantané en 3s (VoiceClone)

Extrayez les caractéristiques vocales avec seulement 3 secondes d'audio de référence. Prend en charge le clonage inter-langues (ex: générer de l'anglais à partir d'audio chinois) et même l'imitation d'animaux.

Conception Vocale en Langage Naturel

Créez des voix via des prompts : "Un homme âgé à la voix rauque, ton triste". Le modèle comprend précisément les exigences d'émotion, de prosodie et de rythme au sein de la sémantique.

Latence Ultra-Faible de 97ms

Génère le premier paquet audio après le streaming d'un seul caractère. Offre une expérience extrême pour les scénarios sensibles à la latence comme la traduction en temps réel et le service client IA.

Interactive Preview

Environnement de Démonstration

Découvrez les fonctionnalités VoiceDesign et VoiceClone directement ci-dessous.

Connexion à Hugging Face Space...

Plongée au Cœur de l'Architecture

Comment Qwen3-TTS atteint-il une telle latence et qualité ?

Architecture de Streaming Dual-Track

Les modèles TTS traditionnels doivent souvent choisir entre "streaming (faible latence)" et "non-streaming (haute qualité)". Qwen3-TTS propose l'innovante Architecture Hybride Dual-Track.

Cela permet au modèle de traiter les deux tâches simultanément. En mode streaming, il atteint une latence de 97ms pour le premier paquet.

Tokenizer SOTA de 12Hz

La qualité de génération audio dépend largement de l'efficacité du Tokenizer. Qwen3 adopte le dernier Tokenizer Multi-Codebook de 12Hz.

Comparé aux 25Hz ou 50Hz traditionnels, 12Hz signifie une efficacité de compression extrême, réduisant considérablement les tokens que le modèle doit prédire.

Tailles de Modèles & Scénarios

Version 0.6B (Base)

Conçu pour le déploiement en périphérie (edge) et les environnements à faible puissance. Maintient les capacités TTS de base tout en réduisant considérablement l'utilisation de VRAM.

Version 1.7B / 1.8B (Pro)

Pour une performance et un contrôle ultimes. Des paramètres plus grands apportent une compréhension sémantique plus forte pour des instructions de prompt complexes.

Comparaison : Avantages en un coup d'œil

FonctionnalitéQwen3-TTSGPT-4o-mini-tts (Analogue)Open Source Traditionnel
Suivi d'InstructionsSOTA (Contrôle Précis)FortFaible / Format Spécifique
Personnalisation VocalePrompt d'une phrase ou audio de 3sClone Audio UniquementNécessite Fine-Tuning
Latence de Streaming97ms (Dual-Track)Env. 200-300msGénéralement >500ms
DéploiementOpen Source (0.6B/1.7B)API FerméeVariable