Modelo de geração de vídeo de próxima geração baseado em Diffusion Transformer (DiT), integrando Flow Matching e Mixture-of-Experts (MoE).
Wan2.2 é um sistema de geração de vídeo ponta a ponta. Ele abandona o U-Net tradicional e adota a arquitetura DiT para lidar com longas sequências de tokens de vídeo. Possui 27B de parâmetros, mas graças à ativação esparsa MoE, o uso de VRAM na inferência equivale a um modelo de 14B.
Codifica texto, quadros e máscaras uniformemente.
Wan-VAE atinge taxa de compressão de 4×8×8, redução de 256x.
Usa codificador umT5, suporte nativo bilíngue (Inglês/Chinês).
Dados de vídeo contêm alta redundância. Wan-VAE alcança compressão simultânea no espaço e tempo via convolução 3D.
->
Wan2.2 usa Flow Matching. Sua trajetória de geração é uma linha reta (Caminho de Transporte Ótimo), mais eficiente e estável que o "caminho aleatório" da difusão tradicional.
Modelo prevê vetor de velocidade diretamente.
A difusão tradicional (DDPM) simula SDEs com caminhos curvos. Flow Matching constrói uma ODE Determinística do ruído aos dados. Caminhos retos permitem passos maiores (20-50 passos).
O MoE do Wan2.2 é especializado para a dimensão temporal do processo de redução de ruído. Estágios iniciais (composição) e tardios (detalhes) requerem capacidades distintas.
Modelo Ativo
Especialista Alto Ruído
Tarefa Foco
Layout Global e Estrutura
Layout Global e Estrutura
| Componente | Especialista Alto Ruído | Especialista Baixo Ruído |
|---|---|---|
| Condição | SNR Baixo (Cedo) | SNR Alto (Tarde) |
| Papel | Grande movimento, layout | Textura, detalhes luz |
| Treinamento | Do Zero | Afinado do Wan2.1 |
O código a seguir mostra como usar a biblioteca `diffusers` do Hugging Face para carregar Wan2.2 e gerar vídeo. A troca MoE é tratada internamente.
import torch
from diffusers import WanPipeline
from diffusers.utils import export_to_video
# 1. Carregar modelo (Carrega pesos MoE auto)
# O código a seguir mostra como usar a biblioteca `diffusers` do Hugging Face para carregar Wan2.2 e gerar vídeo. A troca MoE é tratada internamente.
pipe = WanPipeline.from_pretrained(
"Wan-AI/Wan2.2-T2V-A14B-Diffusers",
torch_dtype=torch.bfloat16
)
# 2. Ativar descarga CPU para economizar VRAM
pipe.enable_model_cpu_offload()
# 3. Gerar Vídeo (Flow Matching precisa ~50 passos)
prompt = "A cinematic drone shot of a futuristic city with flying cars, neon lights, 4k, high quality."
output = pipe(
prompt=prompt,
height=720,
width=1280,
num_inference_steps=50,
guidance_scale=5.0
).frames[0]
# 4. Salvar Resultado
export_to_video(output, "wan_futuristic_city.mp4")