Aprendizaje Wan2.2 - Generación de Video SOTA

Visión General de la Arquitectura

Wan2.2 es un sistema de generación de video de extremo a extremo. Abandona el U-Net tradicional y adopta la arquitectura DiT para manejar largas secuencias de tokens de video. Tiene 27B de parámetros, pero gracias a la activación dispersa MoE, el uso de VRAM en inferencia equivale a un modelo de 14B.

Entrada Unificada (VCU)

Codifica texto, cuadros y máscaras uniformemente.

Compresión Espaciotemporal Eficiente

Wan-VAE logra una tasa de compresión de 4×8×8, reducción de 256x.

Comprensión Multilingüe

Usa codificador umT5, soporte nativo bilingüe (Inglés/Chino).

Tubería de Flujo de Datos

Entrada Video

Prompt Texto

Codificador Wan-VAE

3D Causal Conv

Codificador umT5

Text Embedding

Núcleo DiT

Coincidencia de Flujo

Conmutación MoE

Decodificador Wan-VAE

Reconstruction

VAE Espaciotemporal: El Arte de la Compresión

Los datos de video contienen alta redundancia. Wan-VAE logra compresión simultánea en espacio y tiempo vía convolución 3D.
->

Detalles Técnicos Clave:

Conv 3D Causal: Asegura que la codificación de cuadros dependa solo de cuadros anteriores.
Pérdida Híbrida: Combinación de pérdidas L1, KL, LPIPS y GAN.
Caché de Características: Almacena características de pasos previos para generación infinita.

Principios de Flow Matching

Visualización: Flow Matching vs. Difusión Tradicional

Wan2.2 usa Flow Matching. Su trayectoria de generación es una línea recta (Ruta de Transporte Óptimo), más eficiente y estable que el "camino aleatorio" de la difusión tradicional.

Entrada Noise

Salida Video

Difusión Tradicional (Aleatorio)

Objetivo de Entrenamiento:

El modelo predice el vector de velocidad directamente.

¿Por qué Flow Matching?

La difusión tradicional (DDPM) simula SDEs con caminos curvos. Flow Matching construye una ODE Determinista de ruido a datos. Los caminos rectos permiten pasos más grandes (20-50 pasos).

Definición Matemática

1. Ruta de Interpolación:
2. Campo Vectorial:
3. Función de Pérdida:

Arquitectura Mixture-of-Experts (MoE)

El MoE de Wan2.2 está especializado para la dimensión temporal del proceso de eliminación de ruido. Las etapas tempranas (composición) y tardías (detalles) requieren capacidades distintas.

Demo Interactiva: Conmutación Dinámica MoE

Params Total: 27B | Activos: 14B

Ruido Puro (Input) Video (Output)

Etapa Temprana (Alto Ruido) Etapa Refinamiento (Bajo Ruido)

Paso de Tiempo Actual 1.00

Modelo Activo

Experto Alto Ruido

Tarea Foco

Diseño Global y Estructura

Umbral Conmutación

Diseño Global y Estructura

División de Trabajo de Expertos

Componente	Experto Alto Ruido	Experto Bajo Ruido
Condición	SNR Bajo (Temprano)	SNR Alto (Tardío)
Rol	Gran movimiento, diseño	Textura, detalles luz
Entrenamiento	Desde Cero	Afinado desde Wan2.1

Implementación de Código

El siguiente código muestra cómo usar la librería `diffusers` de Hugging Face para cargar Wan2.2 y generar video. La conmutación MoE se maneja internamente.

Inferencia Python (Diffusers)

import torch
from diffusers import WanPipeline
from diffusers.utils import export_to_video

# 1. Cargar modelo (Carga pesos MoE auto)
# El siguiente código muestra cómo usar la librería `diffusers` de Hugging Face para cargar Wan2.2 y generar video. La conmutación MoE se maneja internamente.
pipe = WanPipeline.from_pretrained(
    "Wan-AI/Wan2.2-T2V-A14B-Diffusers",
    torch_dtype=torch.bfloat16
)

# 2. Activar descarga CPU para ahorrar VRAM
pipe.enable_model_cpu_offload()

# 3. Generar Video (Flow Matching necesita ~50 pasos)
prompt = "A cinematic drone shot of a futuristic city with flying cars, neon lights, 4k, high quality."
output = pipe(
    prompt=prompt,
    height=720,
    width=1280,
    num_inference_steps=50,
    guidance_scale=5.0
).frames[0]

# 4. Guardar Resultado
export_to_video(output, "wan_futuristic_city.mp4")