ComfyUI unterstützt jetzt Wan2.1

🧠 Was ist Wan2.1?

Wan2.1 ist eine leistungsstarke Serie von Open-Source-Videogenerierungsmodellen von Alibaba.

Die Serie beinhaltet:

ModelltypAuflösungVRAM (ca.)
Text-zu-Video 14B (T2V)480P / 720P~40GB
Text-zu-Video 1.3B (T2V)480P~8–15GB
Bild-zu-Video 14B (I2V)480P / 720P~40GB
Visuelle TextgenerierungMehrsprachig (Chinesisch/Englisch)Variabel

🔧 Hauptmerkmale

  • Verbraucherfreundlich:Das T2V 1.3B-Modell kann auf GPUs mit ca. 8,19 GB VRAM ausgeführt werden.
  • Multitask-Unterstützung:Unterstützt T2V (Text-zu-Video), I2V (Bild-zu-Video), V2V (Video-zu-Video), T2I (Text-zu-Bild), V2A (Video-zu-Audio).
  • Hohe Effizienz:Der leistungsstarke Wan-VAE kann 1080p-Videos mit zeitlicher Konsistenz verarbeiten.
  • Sprachunterstützung:Das erste Modell, das die Generierung von Text in Chinesisch und Englisch unterstützt.

📂 Einrichtungsanleitung

  1. Aktualisieren Sie ComfyUI auf die neueste Version.
  2. Laden Sie die erforderlichen Dateien herunter und legen Sie sie in den angegebenen ComfyUI-Unterverzeichnissen ab:
DateibeschreibungDateiname (Zum Herunterladen klicken)Zielordner
Text-Encoderumt5_xxl_fp8_e4m3fn_scaled.safetensorsComfyUI/models/text_encoders/
VAEwan_2.1_vae.safetensorsComfyUI/models/vae/
CLIP Vision (für Bild-zu-Video)clip_vision_h.safetensorsComfyUI/models/clip_vision/
Videomodell (Diffusionsmodell)Auswählen aus diesem Verzeichnis table2_row4_col2_suffixComfyUI/models/diffusion_models/

Empfehlung für Videomodelle:

  • Für beste Qualität wird die fp16-Version empfohlen.
  • Qualitätsranking (hoch zu niedrig):fp16 > bf16 > fp8_scaled > fp8_e4m3fn
  • Wenn der VRAM nicht ausreicht, ziehen Sie die Verwendung der fp8-Version in Betracht.

📜 Beispiel-Workflows

ComfyUI bietet JSON-basierte Workflows. Sie finden diese JSON-Dateien in den offiziellen ComfyUI-Beispielen oder der Dokumentation. Hier sind GIF-Demonstrationen einiger Workflows:

Text zu Video (Text to Video)

Dieser Workflow kann mit den 1.3B- oder 14B-Modellen verwendet werden. Verwenden Sie beispielsweise:

Ausgabe: 480p / 720p (abhängig vom ausgewählten Modell und den Einstellungen)

Laufzeit: Die Generierung eines 5-Sekunden-480p-Videos mit einer RTX 4090 dauert etwa 4 Minuten.

Workflow-Beispiel (1.3B 480p):

Text to Video 1.3B 480P Workflow Example

Workflow-Beispiel (14B 720p):

Text to Video 14B 720P Workflow Example

JSON-Workflow-Datei:text_to_video_wan.json

Bild zu Video (Image to Video)

Dieser Workflow erfordert die folgenden Dateien:

Ausgabe: 480p (Standardbeispiel: 33 Frames @ 512x512) oder 720p (wenn VRAM und Hardware dies zulassen).

Workflow-Beispiel (14B 480p):

Image to Video 14B 480P Workflow Example

Workflow-Beispiel (14B 720p):

Image to Video 14B 720P Workflow Example

JSON-Workflow-Datei:image_to_video_wan_example.json

📝 Hinweise

  • Text-Encoder:Erforderlich (umt5_xxl_fp8_e4m3fn_scaled.safetensors)。
  • VRAM-Anforderung:Um das 480p/720p Bild-zu-Video-Modell (z. B. 14B I2V) mit umt5_xxl_fp8_e4m3fn_scaled.safetensors auszuführen, benötigen Sie etwa 40 GB VRAM.
  • 1.3B T2V-Modell VRAM:Das 1.3B Text-zu-Video-Modell benötigt ungefähr 15 GB VRAM.
  • VRAM sparen:Beispiele verwenden normalerweise 16-Bit-Dateien (fp16). Wenn Sie jedoch wenig VRAM haben, können Sie stattdessen fp8-Versionen verwenden.
  • 720p-Modelle:720p-Modelle funktionieren gut, erfordern jedoch höhere Hardwarespezifikationen und Geduld bei der Ausführung.