Wan2.1 ist eine leistungsstarke Serie von Open-Source-Videogenerierungsmodellen von Alibaba.
Die Serie beinhaltet:
| Modelltyp | Auflösung | VRAM (ca.) |
|---|---|---|
| Text-zu-Video 14B (T2V) | 480P / 720P | ~40GB |
| Text-zu-Video 1.3B (T2V) | 480P | ~8–15GB |
| Bild-zu-Video 14B (I2V) | 480P / 720P | ~40GB |
| Visuelle Textgenerierung | Mehrsprachig (Chinesisch/Englisch) | Variabel |
| Dateibeschreibung | Dateiname (Zum Herunterladen klicken) | Zielordner |
|---|---|---|
| Text-Encoder | umt5_xxl_fp8_e4m3fn_scaled.safetensors | ComfyUI/models/text_encoders/ |
| VAE | wan_2.1_vae.safetensors | ComfyUI/models/vae/ |
| CLIP Vision (für Bild-zu-Video) | clip_vision_h.safetensors | ComfyUI/models/clip_vision/ |
| Videomodell (Diffusionsmodell) | Auswählen aus diesem Verzeichnis table2_row4_col2_suffix | ComfyUI/models/diffusion_models/ |
Empfehlung für Videomodelle:
fp16 > bf16 > fp8_scaled > fp8_e4m3fn。ComfyUI bietet JSON-basierte Workflows. Sie finden diese JSON-Dateien in den offiziellen ComfyUI-Beispielen oder der Dokumentation. Hier sind GIF-Demonstrationen einiger Workflows:
Dieser Workflow kann mit den 1.3B- oder 14B-Modellen verwendet werden. Verwenden Sie beispielsweise:
wan2.1_t2v_1.3B_fp16.safetensors (In ComfyUI/models/diffusion_models/ ablegen)Ausgabe: 480p / 720p (abhängig vom ausgewählten Modell und den Einstellungen)
Laufzeit: Die Generierung eines 5-Sekunden-480p-Videos mit einer RTX 4090 dauert etwa 4 Minuten.
Workflow-Beispiel (1.3B 480p):
Workflow-Beispiel (14B 720p):
JSON-Workflow-Datei:text_to_video_wan.json
Dieser Workflow erfordert die folgenden Dateien:
wan2.1_i2v_480p_14B_fp16.safetensors (In ComfyUI/models/diffusion_models/ ablegen)wan2.1_i2v_720p_14B_fp16.safetensors (In ComfyUI/models/diffusion_models/ ablegen)clip_vision_h.safetensors (In ComfyUI/models/clip_vision/ ablegen)Ausgabe: 480p (Standardbeispiel: 33 Frames @ 512x512) oder 720p (wenn VRAM und Hardware dies zulassen).
Workflow-Beispiel (14B 480p):
Workflow-Beispiel (14B 720p):
JSON-Workflow-Datei:image_to_video_wan_example.json
umt5_xxl_fp8_e4m3fn_scaled.safetensors)。umt5_xxl_fp8_e4m3fn_scaled.safetensors auszuführen, benötigen Sie etwa 40 GB VRAM.