22.01.2026 Lanzamiento Técnico · Código Abierto Apache 2.0

Qwen3-TTS
Arquitectura de Audio de Próxima Generación

No solo clonación de voz, sino una reconstrucción de la experiencia de interacción TTS. Desde latencia ultrabaja de 97ms hasta la arquitectura de streaming Dual-Track, analizamos el último avance del equipo Qwen.

Demo en Vivo Ver Arquitectura

Clonación Instantánea en 3s (VoiceClone)

Extrae características de voz con solo 3 segundos de audio de referencia. Soporta clonación entre idiomas (ej: generar habla en inglés desde audio en chino) e incluso mímica de animales.

Diseño de Voz en Lenguaje Natural

Crea voces mediante prompts: "Un hombre anciano con voz ronca, tono triste". El modelo entiende con precisión los requisitos de emoción, prosodia y ritmo dentro de la semántica.

Latencia Ultrabaja de 97ms

Genera el primer paquete de audio tras el streaming de un solo carácter. Ofrece una experiencia extrema para escenarios sensibles a la latencia, como traducción en tiempo real y atención al cliente por IA.

Interactive Preview

Entorno de Demostración

Experimente las funciones VoiceDesign y VoiceClone directamente a continuación.

Space Status: Running

Conectando a Hugging Face Space...

Análisis Profundo de la Arquitectura

¿Cómo logra Qwen3-TTS baja latencia y alta calidad?

Arquitectura de Streaming Dual-Track

Los modelos TTS tradicionales suelen intercambiar "streaming (baja latencia)" por "no streaming (alta calidad)". Qwen3-TTS propone la innovadora Arquitectura Híbrida Dual-Track.

Esto permite al modelo procesar ambas tareas simultáneamente. En modo streaming, alcanza una latencia de 97ms en el primer paquete.

Tokenizer SOTA de 12Hz

La calidad de generación depende de la eficiencia del Tokenizer. Qwen3 adopta el último Tokenizer Multi-Codebook de 12Hz.

Comparado con los tradicionales 25Hz o 50Hz, 12Hz significa una eficiencia de compresión extrema, reduciendo significativamente los tokens que el modelo necesita predecir.

Tamaños de Modelo y Escenarios

Versión 0.6B (Base)

Diseñado para implementación en borde y entornos de bajo cómputo. Mantiene capacidades centrales de TTS reduciendo drásticamente el uso de VRAM.

Versión 1.7B / 1.8B (Pro)

Buscando rendimiento y control definitivos. Parámetros más grandes aportan mayor comprensión semántica para instrucciones de prompt complejas.

Comparación: Ventajas de un Vistazo

Característica	Qwen3-TTS	GPT-4o-mini-tts (Análogo)	Open Source Tradicional
Seguimiento de Instrucciones	SOTA (Control Preciso)	Fuerte	Débil / Formato Específico
Personalización de Voz	Prompt de 1 frase o audio de 3s	Solo Clon de Audio	Requiere Ajuste Fino
Latencia de Streaming	97ms (Dual-Track)	Aprox. 200-300ms	Generalmente >500ms
Implementación	Código Abierto (0.6B/1.7B)	API Cerrada	Variable

Obtener Modelos y Documentación

Repositorio GitHub

Código y Guía de Ajuste Fino

Hugging Face

Pesos del Modelo

ModelScope

Descarga Rápida (CN)

Informe Técnico

Leer Blog Oficial