Video-Generierungsmodell der nächsten Generation basierend auf Diffusion Transformer (DiT), integriert Flow Matching und Mixture-of-Experts (MoE).
Wan2.2 ist ein End-to-End-Video-Generierungssystem. Es verzichtet auf das traditionelle U-Net und übernimmt die DiT-Architektur zur Verarbeitung langer Video-Sequenz-Token. Es hat 27B Parameter, aber dank der MoE-Sparse-Aktivierung entspricht der VRAM-Verbrauch bei der Inferenz einem 14B-Modell.
Kodiert Text, Frames und Masken einheitlich.
Wan-VAE erreicht eine 4×8×8 Kompressionsrate, 256-fache Reduktion.
Nutzt umT5 Encoder, native zweisprachige Unterstützung (Englisch/Chinesisch).
Videodaten enthalten hohe Redundanz. Wan-VAE erreicht durch 3D-Faltung gleichzeitige Kompression in Raum und Zeit.
->
Wan2.2 nutzt Flow Matching. Seine Generierungsbahn ist eine gerade Linie (Optimal Transport Path), effizienter und stabiler als der "Random Walk" traditioneller Diffusionsmodelle.
Modell sagt Geschwindigkeitsvektor direkt vorher.
Traditionelle Diffusion (DDPM) simuliert SDEs mit gekrümmten Pfaden. Flow Matching baut eine Deterministische ODE vom Rauschen zu den Daten. Gerade Pfade erlauben größere Schrittweiten (20-50 Schritte).
Das MoE von Wan2.2 ist auf die Zeitdimension des Entrauschungsprozesses spezialisiert. Frühe Phasen (Komposition) und späte Phasen (Details) erfordern unterschiedliche Fähigkeiten.
Aktives Modell
High Noise Experte
Fokus-Aufgabe
Globales Layout & Struktur
Globales Layout & Struktur
| Komponente | High Noise Experte | Low Noise Experte |
|---|---|---|
| Bedingung | Niedriges SNR (Früh) | Hohes SNR (Spät) |
| Rolle | Große Bewegung, Layout | Textur, Lichtdetails |
| Training | Von Grund auf | Feinabstimmung von Wan2.1 |
Der folgende Code zeigt, wie man die Hugging Face `diffusers` Bibliothek verwendet, um Wan2.2 zu laden und Videos zu generieren. MoE-Umschaltung wird intern behandelt.
import torch
from diffusers import WanPipeline
from diffusers.utils import export_to_video
# 1. Modell laden (Lädt MoE-Gewichte automatisch)
# Der folgende Code zeigt, wie man die Hugging Face `diffusers` Bibliothek verwendet, um Wan2.2 zu laden und Videos zu generieren. MoE-Umschaltung wird intern behandelt.
pipe = WanPipeline.from_pretrained(
"Wan-AI/Wan2.2-T2V-A14B-Diffusers",
torch_dtype=torch.bfloat16
)
# 2. CPU-Offload aktivieren um VRAM zu sparen
pipe.enable_model_cpu_offload()
# 3. Video generieren (Flow Matching braucht ~50 Schritte)
prompt = "A cinematic drone shot of a futuristic city with flying cars, neon lights, 4k, high quality."
output = pipe(
prompt=prompt,
height=720,
width=1280,
num_inference_steps=50,
guidance_scale=5.0
).frames[0]
# 4. Ergebnis speichern
export_to_video(output, "wan_futuristic_city.mp4")