22.01.2026 Sortie Technique · Open Source Apache 2.0

Qwen3-TTS
Architecture Audio Open Source de Nouvelle Génération

Pas seulement du clonage vocal, mais une reconstruction de l'expérience d'interaction TTS. De la latence ultra-faible de 97ms à l'architecture de streaming Dual-Track, nous analysons la dernière percée de l'équipe Qwen.

Démo en direct Voir l'architecture

Clonage Instantané en 3s (VoiceClone)

Extrayez les caractéristiques vocales avec seulement 3 secondes d'audio de référence. Prend en charge le clonage inter-langues (ex: générer de l'anglais à partir d'audio chinois) et même l'imitation d'animaux.

Conception Vocale en Langage Naturel

Créez des voix via des prompts : "Un homme âgé à la voix rauque, ton triste". Le modèle comprend précisément les exigences d'émotion, de prosodie et de rythme au sein de la sémantique.

Latence Ultra-Faible de 97ms

Génère le premier paquet audio après le streaming d'un seul caractère. Offre une expérience extrême pour les scénarios sensibles à la latence comme la traduction en temps réel et le service client IA.

Interactive Preview

Environnement de Démonstration

Découvrez les fonctionnalités VoiceDesign et VoiceClone directement ci-dessous.

Space Status: Running

Connexion à Hugging Face Space...

Plongée au Cœur de l'Architecture

Comment Qwen3-TTS atteint-il une telle latence et qualité ?

Architecture de Streaming Dual-Track

Les modèles TTS traditionnels doivent souvent choisir entre "streaming (faible latence)" et "non-streaming (haute qualité)". Qwen3-TTS propose l'innovante Architecture Hybride Dual-Track.

Cela permet au modèle de traiter les deux tâches simultanément. En mode streaming, il atteint une latence de 97ms pour le premier paquet.

Tokenizer SOTA de 12Hz

La qualité de génération audio dépend largement de l'efficacité du Tokenizer. Qwen3 adopte le dernier Tokenizer Multi-Codebook de 12Hz.

Comparé aux 25Hz ou 50Hz traditionnels, 12Hz signifie une efficacité de compression extrême, réduisant considérablement les tokens que le modèle doit prédire.

Tailles de Modèles & Scénarios

Version 0.6B (Base)

Conçu pour le déploiement en périphérie (edge) et les environnements à faible puissance. Maintient les capacités TTS de base tout en réduisant considérablement l'utilisation de VRAM.

Version 1.7B / 1.8B (Pro)

Pour une performance et un contrôle ultimes. Des paramètres plus grands apportent une compréhension sémantique plus forte pour des instructions de prompt complexes.

Comparaison : Avantages en un coup d'œil

Fonctionnalité	Qwen3-TTS	GPT-4o-mini-tts (Analogue)	Open Source Traditionnel
Suivi d'Instructions	SOTA (Contrôle Précis)	Fort	Faible / Format Spécifique
Personnalisation Vocale	Prompt d'une phrase ou audio de 3s	Clone Audio Uniquement	Nécessite Fine-Tuning
Latence de Streaming	97ms (Dual-Track)	Env. 200-300ms	Généralement >500ms
Déploiement	Open Source (0.6B/1.7B)	API Fermée	Variable

Obtenir Modèles & Docs

Dépôt GitHub

Code & Guide de Fine-Tuning

Hugging Face

Poids du Modèle

ModelScope

Téléchargement Rapide (CN)

Rapport Technique

Lire le Blog Officiel