Video-Generierung SOTA

Wan2.2 Technischer Deep Dive

Video-Generierungsmodell der nächsten Generation basierend auf Diffusion Transformer (DiT), integriert Flow Matching und Mixture-of-Experts (MoE).

Architektur-Überblick

Wan2.2 ist ein End-to-End-Video-Generierungssystem. Es verzichtet auf das traditionelle U-Net und übernimmt die DiT-Architektur zur Verarbeitung langer Video-Sequenz-Token. Es hat 27B Parameter, aber dank der MoE-Sparse-Aktivierung entspricht der VRAM-Verbrauch bei der Inferenz einem 14B-Modell.

Vereinheitlichte Eingabe (VCU)

Kodiert Text, Frames und Masken einheitlich.

Effiziente Raum-Zeit-Kompression

Wan-VAE erreicht eine 4×8×8 Kompressionsrate, 256-fache Reduktion.

Mehrsprachiges Verständnis

Nutzt umT5 Encoder, native zweisprachige Unterstützung (Englisch/Chinesisch).

Datenfluss-Pipeline

Video-Eingabe
Text-Prompt
Wan-VAE Encoder
3D Causal Conv
umT5 Encoder
Text Embedding
DiT Kern
Flow Matching
MoE Umschaltung
Wan-VAE Decoder
Reconstruction

Raum-Zeit-VAE: Die Kunst der Kompression

Videodaten enthalten hohe Redundanz. Wan-VAE erreicht durch 3D-Faltung gleichzeitige Kompression in Raum und Zeit.
->

Wichtige technische Details:

  • Kausale 3D-Konv: Stellt sicher, dass die Frame-Kodierung nur von vorherigen Frames abhängt.
  • Hybrider Verlust: Kombination aus L1, KL, LPIPS und GAN Verlusten.
  • Feature-Cache: Speichert Features aus vorherigen Schritten für unendliche Generierung.

Flow Matching Prinzipien

Visualisierung: Flow Matching vs. Traditionelle Diffusion

Wan2.2 nutzt Flow Matching. Seine Generierungsbahn ist eine gerade Linie (Optimal Transport Path), effizienter und stabiler als der "Random Walk" traditioneller Diffusionsmodelle.

Eingabe Noise
Ausgabe Video
Flow Matching (Gerade)
Traditionelle Diffusion (Zufall)

Trainingsziel:

Modell sagt Geschwindigkeitsvektor direkt vorher.

Warum Flow Matching?

Traditionelle Diffusion (DDPM) simuliert SDEs mit gekrümmten Pfaden. Flow Matching baut eine Deterministische ODE vom Rauschen zu den Daten. Gerade Pfade erlauben größere Schrittweiten (20-50 Schritte).

Mathematische Definition

  • 1. Interpolationspfad:
  • 2. Vektorfeld:
  • 3. Verlustfunktion:

Mixture-of-Experts (MoE) Architektur

Das MoE von Wan2.2 ist auf die Zeitdimension des Entrauschungsprozesses spezialisiert. Frühe Phasen (Komposition) und späte Phasen (Details) erfordern unterschiedliche Fähigkeiten.

Interaktive Demo: MoE Dynamische Umschaltung

Gesamtparameter: 27B | Aktiv: 14B
Reines Rauschen (Input) Video (Output)
Frühes Stadium (Hohes Rauschen) Verfeinerungsstadium (Niedriges Rauschen)
Aktueller Zeitschritt 1.00

Aktives Modell

High Noise Experte

Fokus-Aufgabe

Globales Layout & Struktur

Umschaltschwelle
t

Globales Layout & Struktur

Experten-Aufgabenteilung

KomponenteHigh Noise ExperteLow Noise Experte
BedingungNiedriges SNR (Früh)Hohes SNR (Spät)
RolleGroße Bewegung, LayoutTextur, Lichtdetails
TrainingVon Grund aufFeinabstimmung von Wan2.1

Code-Implementierung

Der folgende Code zeigt, wie man die Hugging Face `diffusers` Bibliothek verwendet, um Wan2.2 zu laden und Videos zu generieren. MoE-Umschaltung wird intern behandelt.

Python Inferenz (Diffusers)
import torch
from diffusers import WanPipeline
from diffusers.utils import export_to_video

# 1. Modell laden (Lädt MoE-Gewichte automatisch)
# Der folgende Code zeigt, wie man die Hugging Face `diffusers` Bibliothek verwendet, um Wan2.2 zu laden und Videos zu generieren. MoE-Umschaltung wird intern behandelt.
pipe = WanPipeline.from_pretrained(
    "Wan-AI/Wan2.2-T2V-A14B-Diffusers",
    torch_dtype=torch.bfloat16
)

# 2. CPU-Offload aktivieren um VRAM zu sparen
pipe.enable_model_cpu_offload()

# 3. Video generieren (Flow Matching braucht ~50 Schritte)
prompt = "A cinematic drone shot of a futuristic city with flying cars, neon lights, 4k, high quality."
output = pipe(
    prompt=prompt,
    height=720,
    width=1280,
    num_inference_steps=50,
    guidance_scale=5.0
).frames[0]

# 4. Ergebnis speichern
export_to_video(output, "wan_futuristic_city.mp4")