Modelo de generación de video de próxima generación basado en Diffusion Transformer (DiT), integrando Flow Matching y Mixture-of-Experts (MoE).
Wan2.2 es un sistema de generación de video de extremo a extremo. Abandona el U-Net tradicional y adopta la arquitectura DiT para manejar largas secuencias de tokens de video. Tiene 27B de parámetros, pero gracias a la activación dispersa MoE, el uso de VRAM en inferencia equivale a un modelo de 14B.
Codifica texto, cuadros y máscaras uniformemente.
Wan-VAE logra una tasa de compresión de 4×8×8, reducción de 256x.
Usa codificador umT5, soporte nativo bilingüe (Inglés/Chino).
Los datos de video contienen alta redundancia. Wan-VAE logra compresión simultánea en espacio y tiempo vía convolución 3D.
->
Wan2.2 usa Flow Matching. Su trayectoria de generación es una línea recta (Ruta de Transporte Óptimo), más eficiente y estable que el "camino aleatorio" de la difusión tradicional.
El modelo predice el vector de velocidad directamente.
La difusión tradicional (DDPM) simula SDEs con caminos curvos. Flow Matching construye una ODE Determinista de ruido a datos. Los caminos rectos permiten pasos más grandes (20-50 pasos).
El MoE de Wan2.2 está especializado para la dimensión temporal del proceso de eliminación de ruido. Las etapas tempranas (composición) y tardías (detalles) requieren capacidades distintas.
Modelo Activo
Experto Alto Ruido
Tarea Foco
Diseño Global y Estructura
Diseño Global y Estructura
| Componente | Experto Alto Ruido | Experto Bajo Ruido |
|---|---|---|
| Condición | SNR Bajo (Temprano) | SNR Alto (Tardío) |
| Rol | Gran movimiento, diseño | Textura, detalles luz |
| Entrenamiento | Desde Cero | Afinado desde Wan2.1 |
El siguiente código muestra cómo usar la librería `diffusers` de Hugging Face para cargar Wan2.2 y generar video. La conmutación MoE se maneja internamente.
import torch
from diffusers import WanPipeline
from diffusers.utils import export_to_video
# 1. Cargar modelo (Carga pesos MoE auto)
# El siguiente código muestra cómo usar la librería `diffusers` de Hugging Face para cargar Wan2.2 y generar video. La conmutación MoE se maneja internamente.
pipe = WanPipeline.from_pretrained(
"Wan-AI/Wan2.2-T2V-A14B-Diffusers",
torch_dtype=torch.bfloat16
)
# 2. Activar descarga CPU para ahorrar VRAM
pipe.enable_model_cpu_offload()
# 3. Generar Video (Flow Matching necesita ~50 pasos)
prompt = "A cinematic drone shot of a futuristic city with flying cars, neon lights, 4k, high quality."
output = pipe(
prompt=prompt,
height=720,
width=1280,
num_inference_steps=50,
guidance_scale=5.0
).frames[0]
# 4. Guardar Resultado
export_to_video(output, "wan_futuristic_city.mp4")