Wan2.2 Lernen - Video-Generierung SOTA

Architektur-Überblick

Wan2.2 ist ein End-to-End-Video-Generierungssystem. Es verzichtet auf das traditionelle U-Net und übernimmt die DiT-Architektur zur Verarbeitung langer Video-Sequenz-Token. Es hat 27B Parameter, aber dank der MoE-Sparse-Aktivierung entspricht der VRAM-Verbrauch bei der Inferenz einem 14B-Modell.

Vereinheitlichte Eingabe (VCU)

Kodiert Text, Frames und Masken einheitlich.

Effiziente Raum-Zeit-Kompression

Wan-VAE erreicht eine 4×8×8 Kompressionsrate, 256-fache Reduktion.

Mehrsprachiges Verständnis

Nutzt umT5 Encoder, native zweisprachige Unterstützung (Englisch/Chinesisch).

Datenfluss-Pipeline

Video-Eingabe

Text-Prompt

Wan-VAE Encoder

3D Causal Conv

umT5 Encoder

Text Embedding

DiT Kern

Flow Matching

MoE Umschaltung

Wan-VAE Decoder

Reconstruction

Raum-Zeit-VAE: Die Kunst der Kompression

Videodaten enthalten hohe Redundanz. Wan-VAE erreicht durch 3D-Faltung gleichzeitige Kompression in Raum und Zeit.
->

Wichtige technische Details:

Kausale 3D-Konv: Stellt sicher, dass die Frame-Kodierung nur von vorherigen Frames abhängt.
Hybrider Verlust: Kombination aus L1, KL, LPIPS und GAN Verlusten.
Feature-Cache: Speichert Features aus vorherigen Schritten für unendliche Generierung.

Flow Matching Prinzipien

Visualisierung: Flow Matching vs. Traditionelle Diffusion

Wan2.2 nutzt Flow Matching. Seine Generierungsbahn ist eine gerade Linie (Optimal Transport Path), effizienter und stabiler als der "Random Walk" traditioneller Diffusionsmodelle.

Eingabe Noise

Ausgabe Video

Traditionelle Diffusion (Zufall)

Trainingsziel:

Modell sagt Geschwindigkeitsvektor direkt vorher.

Warum Flow Matching?

Traditionelle Diffusion (DDPM) simuliert SDEs mit gekrümmten Pfaden. Flow Matching baut eine Deterministische ODE vom Rauschen zu den Daten. Gerade Pfade erlauben größere Schrittweiten (20-50 Schritte).

Mathematische Definition

1. Interpolationspfad:
2. Vektorfeld:
3. Verlustfunktion:

Mixture-of-Experts (MoE) Architektur

Das MoE von Wan2.2 ist auf die Zeitdimension des Entrauschungsprozesses spezialisiert. Frühe Phasen (Komposition) und späte Phasen (Details) erfordern unterschiedliche Fähigkeiten.

Interaktive Demo: MoE Dynamische Umschaltung

Gesamtparameter: 27B | Aktiv: 14B

Reines Rauschen (Input) Video (Output)

Frühes Stadium (Hohes Rauschen) Verfeinerungsstadium (Niedriges Rauschen)

Aktueller Zeitschritt 1.00

Aktives Modell

High Noise Experte

Fokus-Aufgabe

Globales Layout & Struktur

Umschaltschwelle

Globales Layout & Struktur

Experten-Aufgabenteilung

Komponente	High Noise Experte	Low Noise Experte
Bedingung	Niedriges SNR (Früh)	Hohes SNR (Spät)
Rolle	Große Bewegung, Layout	Textur, Lichtdetails
Training	Von Grund auf	Feinabstimmung von Wan2.1

Code-Implementierung

Der folgende Code zeigt, wie man die Hugging Face `diffusers` Bibliothek verwendet, um Wan2.2 zu laden und Videos zu generieren. MoE-Umschaltung wird intern behandelt.

Python Inferenz (Diffusers)

import torch
from diffusers import WanPipeline
from diffusers.utils import export_to_video

# 1. Modell laden (Lädt MoE-Gewichte automatisch)
# Der folgende Code zeigt, wie man die Hugging Face `diffusers` Bibliothek verwendet, um Wan2.2 zu laden und Videos zu generieren. MoE-Umschaltung wird intern behandelt.
pipe = WanPipeline.from_pretrained(
    "Wan-AI/Wan2.2-T2V-A14B-Diffusers",
    torch_dtype=torch.bfloat16
)

# 2. CPU-Offload aktivieren um VRAM zu sparen
pipe.enable_model_cpu_offload()

# 3. Video generieren (Flow Matching braucht ~50 Schritte)
prompt = "A cinematic drone shot of a futuristic city with flying cars, neon lights, 4k, high quality."
output = pipe(
    prompt=prompt,
    height=720,
    width=1280,
    num_inference_steps=50,
    guidance_scale=5.0
).frames[0]

# 4. Ergebnis speichern
export_to_video(output, "wan_futuristic_city.mp4")