Aprendizado Wan2.2 - Geração de Vídeo SOTA

Visão Geral da Arquitetura

Wan2.2 é um sistema de geração de vídeo ponta a ponta. Ele abandona o U-Net tradicional e adota a arquitetura DiT para lidar com longas sequências de tokens de vídeo. Possui 27B de parâmetros, mas graças à ativação esparsa MoE, o uso de VRAM na inferência equivale a um modelo de 14B.

Entrada Unificada (VCU)

Codifica texto, quadros e máscaras uniformemente.

Compressão Espaçotemporal Eficiente

Wan-VAE atinge taxa de compressão de 4×8×8, redução de 256x.

Compreensão Multilíngue

Usa codificador umT5, suporte nativo bilíngue (Inglês/Chinês).

Pipeline de Fluxo de Dados

Entrada Vídeo

Prompt Texto

Codificador Wan-VAE

3D Causal Conv

Codificador umT5

Text Embedding

Núcleo DiT

Flow Matching

Troca MoE

Decodificador Wan-VAE

Reconstruction

VAE Espaçotemporal: A Arte da Compressão

Dados de vídeo contêm alta redundância. Wan-VAE alcança compressão simultânea no espaço e tempo via convolução 3D.
->

Detalhes Técnicos Chave:

Conv 3D Causal: Garante que a codificação de quadros dependa apenas de quadros anteriores.
Perda Híbrida: Combinação de perdas L1, KL, LPIPS e GAN.
Cache de Recursos: Armazena recursos de passos anteriores para geração infinita.

Princípios de Flow Matching

Visualização: Flow Matching vs. Difusão Tradicional

Wan2.2 usa Flow Matching. Sua trajetória de geração é uma linha reta (Caminho de Transporte Ótimo), mais eficiente e estável que o "caminho aleatório" da difusão tradicional.

Entrada Noise

Saída Video

Difusão Tradicional (Aleatório)

Objetivo de Treinamento:

Modelo prevê vetor de velocidade diretamente.

Por que Flow Matching?

A difusão tradicional (DDPM) simula SDEs com caminhos curvos. Flow Matching constrói uma ODE Determinística do ruído aos dados. Caminhos retos permitem passos maiores (20-50 passos).

Definição Matemática

1. Caminho de Interpolação:
2. Campo Vetorial:
3. Função de Perda:

Arquitetura Mixture-of-Experts (MoE)

O MoE do Wan2.2 é especializado para a dimensão temporal do processo de redução de ruído. Estágios iniciais (composição) e tardios (detalhes) requerem capacidades distintas.

Demo Interativa: Troca Dinâmica MoE

Total Params: 27B | Ativos: 14B

Ruído Puro (Input) Vídeo (Output)

Estágio Inicial (Alto Ruído) Estágio Refinamento (Baixo Ruído)

Passo de Tempo Atual 1.00

Modelo Ativo

Especialista Alto Ruído

Tarefa Foco

Layout Global e Estrutura

Limiar de Troca

Layout Global e Estrutura

Divisão de Trabalho de Especialistas

Componente	Especialista Alto Ruído	Especialista Baixo Ruído
Condição	SNR Baixo (Cedo)	SNR Alto (Tarde)
Papel	Grande movimento, layout	Textura, detalhes luz
Treinamento	Do Zero	Afinado do Wan2.1

Implementação de Código

O código a seguir mostra como usar a biblioteca `diffusers` do Hugging Face para carregar Wan2.2 e gerar vídeo. A troca MoE é tratada internamente.

Inferência Python (Diffusers)

import torch
from diffusers import WanPipeline
from diffusers.utils import export_to_video

# 1. Carregar modelo (Carrega pesos MoE auto)
# O código a seguir mostra como usar a biblioteca `diffusers` do Hugging Face para carregar Wan2.2 e gerar vídeo. A troca MoE é tratada internamente.
pipe = WanPipeline.from_pretrained(
    "Wan-AI/Wan2.2-T2V-A14B-Diffusers",
    torch_dtype=torch.bfloat16
)

# 2. Ativar descarga CPU para economizar VRAM
pipe.enable_model_cpu_offload()

# 3. Gerar Vídeo (Flow Matching precisa ~50 passos)
prompt = "A cinematic drone shot of a futuristic city with flying cars, neon lights, 4k, high quality."
output = pipe(
    prompt=prompt,
    height=720,
    width=1280,
    num_inference_steps=50,
    guidance_scale=5.0
).frames[0]

# 4. Salvar Resultado
export_to_video(output, "wan_futuristic_city.mp4")