Geração de Vídeo SOTA

Wan2.2 Mergulho Técnico Profundo

Modelo de geração de vídeo de próxima geração baseado em Diffusion Transformer (DiT), integrando Flow Matching e Mixture-of-Experts (MoE).

Visão Geral da Arquitetura

Wan2.2 é um sistema de geração de vídeo ponta a ponta. Ele abandona o U-Net tradicional e adota a arquitetura DiT para lidar com longas sequências de tokens de vídeo. Possui 27B de parâmetros, mas graças à ativação esparsa MoE, o uso de VRAM na inferência equivale a um modelo de 14B.

Entrada Unificada (VCU)

Codifica texto, quadros e máscaras uniformemente.

Compressão Espaçotemporal Eficiente

Wan-VAE atinge taxa de compressão de 4×8×8, redução de 256x.

Compreensão Multilíngue

Usa codificador umT5, suporte nativo bilíngue (Inglês/Chinês).

Pipeline de Fluxo de Dados

Entrada Vídeo
Prompt Texto
Codificador Wan-VAE
3D Causal Conv
Codificador umT5
Text Embedding
Núcleo DiT
Flow Matching
Troca MoE
Decodificador Wan-VAE
Reconstruction

VAE Espaçotemporal: A Arte da Compressão

Dados de vídeo contêm alta redundância. Wan-VAE alcança compressão simultânea no espaço e tempo via convolução 3D.
->

Detalhes Técnicos Chave:

  • Conv 3D Causal: Garante que a codificação de quadros dependa apenas de quadros anteriores.
  • Perda Híbrida: Combinação de perdas L1, KL, LPIPS e GAN.
  • Cache de Recursos: Armazena recursos de passos anteriores para geração infinita.

Princípios de Flow Matching

Visualização: Flow Matching vs. Difusão Tradicional

Wan2.2 usa Flow Matching. Sua trajetória de geração é uma linha reta (Caminho de Transporte Ótimo), mais eficiente e estável que o "caminho aleatório" da difusão tradicional.

Entrada Noise
Saída Video
Flow Matching (Reto)
Difusão Tradicional (Aleatório)

Objetivo de Treinamento:

Modelo prevê vetor de velocidade diretamente.

Por que Flow Matching?

A difusão tradicional (DDPM) simula SDEs com caminhos curvos. Flow Matching constrói uma ODE Determinística do ruído aos dados. Caminhos retos permitem passos maiores (20-50 passos).

Definição Matemática

  • 1. Caminho de Interpolação:
  • 2. Campo Vetorial:
  • 3. Função de Perda:

Arquitetura Mixture-of-Experts (MoE)

O MoE do Wan2.2 é especializado para a dimensão temporal do processo de redução de ruído. Estágios iniciais (composição) e tardios (detalhes) requerem capacidades distintas.

Demo Interativa: Troca Dinâmica MoE

Total Params: 27B | Ativos: 14B
Ruído Puro (Input) Vídeo (Output)
Estágio Inicial (Alto Ruído) Estágio Refinamento (Baixo Ruído)
Passo de Tempo Atual 1.00

Modelo Ativo

Especialista Alto Ruído

Tarefa Foco

Layout Global e Estrutura

Limiar de Troca
t

Layout Global e Estrutura

Divisão de Trabalho de Especialistas

ComponenteEspecialista Alto RuídoEspecialista Baixo Ruído
CondiçãoSNR Baixo (Cedo)SNR Alto (Tarde)
PapelGrande movimento, layoutTextura, detalhes luz
TreinamentoDo ZeroAfinado do Wan2.1

Implementação de Código

O código a seguir mostra como usar a biblioteca `diffusers` do Hugging Face para carregar Wan2.2 e gerar vídeo. A troca MoE é tratada internamente.

Inferência Python (Diffusers)
import torch
from diffusers import WanPipeline
from diffusers.utils import export_to_video

# 1. Carregar modelo (Carrega pesos MoE auto)
# O código a seguir mostra como usar a biblioteca `diffusers` do Hugging Face para carregar Wan2.2 e gerar vídeo. A troca MoE é tratada internamente.
pipe = WanPipeline.from_pretrained(
    "Wan-AI/Wan2.2-T2V-A14B-Diffusers",
    torch_dtype=torch.bfloat16
)

# 2. Ativar descarga CPU para economizar VRAM
pipe.enable_model_cpu_offload()

# 3. Gerar Vídeo (Flow Matching precisa ~50 passos)
prompt = "A cinematic drone shot of a futuristic city with flying cars, neon lights, 4k, high quality."
output = pipe(
    prompt=prompt,
    height=720,
    width=1280,
    num_inference_steps=50,
    guidance_scale=5.0
).frames[0]

# 4. Salvar Resultado
export_to_video(output, "wan_futuristic_city.mp4")