Generación de Video SOTA

Wan2.2 Análisis Técnico Profundo

Modelo de generación de video de próxima generación basado en Diffusion Transformer (DiT), integrando Flow Matching y Mixture-of-Experts (MoE).

Visión General de la Arquitectura

Wan2.2 es un sistema de generación de video de extremo a extremo. Abandona el U-Net tradicional y adopta la arquitectura DiT para manejar largas secuencias de tokens de video. Tiene 27B de parámetros, pero gracias a la activación dispersa MoE, el uso de VRAM en inferencia equivale a un modelo de 14B.

Entrada Unificada (VCU)

Codifica texto, cuadros y máscaras uniformemente.

Compresión Espaciotemporal Eficiente

Wan-VAE logra una tasa de compresión de 4×8×8, reducción de 256x.

Comprensión Multilingüe

Usa codificador umT5, soporte nativo bilingüe (Inglés/Chino).

Tubería de Flujo de Datos

Entrada Video
Prompt Texto
Codificador Wan-VAE
3D Causal Conv
Codificador umT5
Text Embedding
Núcleo DiT
Coincidencia de Flujo
Conmutación MoE
Decodificador Wan-VAE
Reconstruction

VAE Espaciotemporal: El Arte de la Compresión

Los datos de video contienen alta redundancia. Wan-VAE logra compresión simultánea en espacio y tiempo vía convolución 3D.
->

Detalles Técnicos Clave:

  • Conv 3D Causal: Asegura que la codificación de cuadros dependa solo de cuadros anteriores.
  • Pérdida Híbrida: Combinación de pérdidas L1, KL, LPIPS y GAN.
  • Caché de Características: Almacena características de pasos previos para generación infinita.

Principios de Flow Matching

Visualización: Flow Matching vs. Difusión Tradicional

Wan2.2 usa Flow Matching. Su trayectoria de generación es una línea recta (Ruta de Transporte Óptimo), más eficiente y estable que el "camino aleatorio" de la difusión tradicional.

Entrada Noise
Salida Video
Flow Matching (Recto)
Difusión Tradicional (Aleatorio)

Objetivo de Entrenamiento:

El modelo predice el vector de velocidad directamente.

¿Por qué Flow Matching?

La difusión tradicional (DDPM) simula SDEs con caminos curvos. Flow Matching construye una ODE Determinista de ruido a datos. Los caminos rectos permiten pasos más grandes (20-50 pasos).

Definición Matemática

  • 1. Ruta de Interpolación:
  • 2. Campo Vectorial:
  • 3. Función de Pérdida:

Arquitectura Mixture-of-Experts (MoE)

El MoE de Wan2.2 está especializado para la dimensión temporal del proceso de eliminación de ruido. Las etapas tempranas (composición) y tardías (detalles) requieren capacidades distintas.

Demo Interactiva: Conmutación Dinámica MoE

Params Total: 27B | Activos: 14B
Ruido Puro (Input) Video (Output)
Etapa Temprana (Alto Ruido) Etapa Refinamiento (Bajo Ruido)
Paso de Tiempo Actual 1.00

Modelo Activo

Experto Alto Ruido

Tarea Foco

Diseño Global y Estructura

Umbral Conmutación
t

Diseño Global y Estructura

División de Trabajo de Expertos

ComponenteExperto Alto RuidoExperto Bajo Ruido
CondiciónSNR Bajo (Temprano)SNR Alto (Tardío)
RolGran movimiento, diseñoTextura, detalles luz
EntrenamientoDesde CeroAfinado desde Wan2.1

Implementación de Código

El siguiente código muestra cómo usar la librería `diffusers` de Hugging Face para cargar Wan2.2 y generar video. La conmutación MoE se maneja internamente.

Inferencia Python (Diffusers)
import torch
from diffusers import WanPipeline
from diffusers.utils import export_to_video

# 1. Cargar modelo (Carga pesos MoE auto)
# El siguiente código muestra cómo usar la librería `diffusers` de Hugging Face para cargar Wan2.2 y generar video. La conmutación MoE se maneja internamente.
pipe = WanPipeline.from_pretrained(
    "Wan-AI/Wan2.2-T2V-A14B-Diffusers",
    torch_dtype=torch.bfloat16
)

# 2. Activar descarga CPU para ahorrar VRAM
pipe.enable_model_cpu_offload()

# 3. Generar Video (Flow Matching necesita ~50 pasos)
prompt = "A cinematic drone shot of a futuristic city with flying cars, neon lights, 4k, high quality."
output = pipe(
    prompt=prompt,
    height=720,
    width=1280,
    num_inference_steps=50,
    guidance_scale=5.0
).frames[0]

# 4. Guardar Resultado
export_to_video(output, "wan_futuristic_city.mp4")