Wan2.1 ist eine leistungsstarke Serie von Open-Source-Videogenerierungsmodellen von Alibaba.
Die Serie beinhaltet:
Modelltyp | Auflösung | VRAM (ca.) |
---|---|---|
Text-zu-Video 14B (T2V) | 480P / 720P | ~40GB |
Text-zu-Video 1.3B (T2V) | 480P | ~8–15GB |
Bild-zu-Video 14B (I2V) | 480P / 720P | ~40GB |
Visuelle Textgenerierung | Mehrsprachig (Chinesisch/Englisch) | Variabel |
Dateibeschreibung | Dateiname (Zum Herunterladen klicken) | Zielordner |
---|---|---|
Text-Encoder | umt5_xxl_fp8_e4m3fn_scaled.safetensors | ComfyUI/models/text_encoders/ |
VAE | wan_2.1_vae.safetensors | ComfyUI/models/vae/ |
CLIP Vision (für Bild-zu-Video) | clip_vision_h.safetensors | ComfyUI/models/clip_vision/ |
Videomodell (Diffusionsmodell) | Auswählen aus diesem Verzeichnis table2_row4_col2_suffix | ComfyUI/models/diffusion_models/ |
Empfehlung für Videomodelle:
fp16
> bf16
> fp8_scaled
> fp8_e4m3fn
。ComfyUI bietet JSON-basierte Workflows. Sie finden diese JSON-Dateien in den offiziellen ComfyUI-Beispielen oder der Dokumentation. Hier sind GIF-Demonstrationen einiger Workflows:
Dieser Workflow kann mit den 1.3B- oder 14B-Modellen verwendet werden. Verwenden Sie beispielsweise:
wan2.1_t2v_1.3B_fp16.safetensors
(In ComfyUI/models/diffusion_models/
ablegen)Ausgabe: 480p / 720p (abhängig vom ausgewählten Modell und den Einstellungen)
Laufzeit: Die Generierung eines 5-Sekunden-480p-Videos mit einer RTX 4090 dauert etwa 4 Minuten.
Workflow-Beispiel (1.3B 480p):
Workflow-Beispiel (14B 720p):
JSON-Workflow-Datei:text_to_video_wan.json
Dieser Workflow erfordert die folgenden Dateien:
wan2.1_i2v_480p_14B_fp16.safetensors
(In ComfyUI/models/diffusion_models/
ablegen)wan2.1_i2v_720p_14B_fp16.safetensors
(In ComfyUI/models/diffusion_models/
ablegen)clip_vision_h.safetensors
(In ComfyUI/models/clip_vision/
ablegen)Ausgabe: 480p (Standardbeispiel: 33 Frames @ 512x512) oder 720p (wenn VRAM und Hardware dies zulassen).
Workflow-Beispiel (14B 480p):
Workflow-Beispiel (14B 720p):
JSON-Workflow-Datei:image_to_video_wan_example.json
umt5_xxl_fp8_e4m3fn_scaled.safetensors
)。umt5_xxl_fp8_e4m3fn_scaled.safetensors
auszuführen, benötigen Sie etwa 40 GB VRAM.