22.01.2026 Lançamento Técnico · Código Aberto Apache 2.0

Qwen3-TTS
Arquitetura de Áudio de Próxima Geração

Não apenas clonagem de voz, mas uma reconstrução da experiência de interação TTS. De latência ultrabaixa de 97ms à arquitetura de streaming Dual-Track, analisamos o mais recente avanço da equipe Qwen.

Clone Instantâneo em 3s (VoiceClone)

Extraia características de voz com apenas 3 segundos de áudio de referência. Suporta clonagem entre idiomas (ex: gerar fala em inglês a partir de áudio em chinês) e até mímica de animais.

Design de Voz em Linguagem Natural

Crie vozes via prompts: "Um homem idoso com voz rouca, tom triste". O modelo entende com precisão os requisitos de emoção, prosódia e ritmo dentro da semântica.

Latência Ultrabaixa de 97ms

Gera o primeiro pacote de áudio após o streaming de um único caractere. Oferece uma experiência extrema para cenários sensíveis à latência, como tradução em tempo real e atendimento via IA.

Interactive Preview

Ambiente de Demonstração

Experimente os recursos VoiceDesign e VoiceClone diretamente abaixo.

Conectando ao Hugging Face Space...

Mergulho Profundo na Arquitetura

Como o Qwen3-TTS alcança baixa latência e alta qualidade?

Arquitetura de Streaming Dual-Track

Modelos TTS tradicionais geralmente trocam "streaming (baixa latência)" por "não-streaming (alta qualidade)". O Qwen3-TTS propõe a inovadora Arquitetura Híbrida Dual-Track.

Isso permite que o modelo processe ambas as tarefas simultaneamente. No modo streaming, atinge latência de 97ms no primeiro pacote.

Tokenizer SOTA de 12Hz

A qualidade da geração depende da eficiência do Tokenizer. O Qwen3 adota o mais recente Tokenizer Multi-Codebook de 12Hz.

Comparado aos tradicionais 25Hz ou 50Hz, 12Hz significa eficiência de compressão extrema, reduzindo significativamente os tokens que o modelo precisa prever.

Tamanhos de Modelo e Cenários

Versão 0.6B (Base)

Projetado para implantação em borda e ambientes de baixo poder computacional. Mantém capacidades centrais de TTS enquanto reduz muito o uso de VRAM.

Versão 1.7B / 1.8B (Pro)

Buscando desempenho e controle definitivos. Parâmetros maiores trazem compreensão semântica mais forte para instruções de prompt complexas.

Comparação: Vantagens em Resumo

RecursoQwen3-TTSGPT-4o-mini-tts (Análogo)Open Source Tradicional
Seguimento de InstruçõesSOTA (Controle Preciso)ForteFraco / Formato Específico
Personalização de VozPrompt de 1 frase ou áudio de 3sApenas Clone de ÁudioRequer Ajuste Fino
Latência de Streaming97ms (Dual-Track)Aprox. 200-300msGeralmente >500ms
ImplantaçãoCódigo Aberto (0.6B/1.7B)API FechadaVariável