ComfyUI unterstützt jetzt Wan2.1

🧠 Was ist Wan2.1?

Wan2.1 ist eine leistungsstarke Serie von Open-Source-Videogenerierungsmodellen von Alibaba.

Die Serie beinhaltet:

Modelltyp	Auflösung	VRAM (ca.)
Text-zu-Video 14B (T2V)	480P / 720P	~40GB
Text-zu-Video 1.3B (T2V)	480P	~8–15GB
Bild-zu-Video 14B (I2V)	480P / 720P	~40GB
Visuelle Textgenerierung	Mehrsprachig (Chinesisch/Englisch)	Variabel

🔧 Hauptmerkmale

Verbraucherfreundlich:Das T2V 1.3B-Modell kann auf GPUs mit ca. 8,19 GB VRAM ausgeführt werden.
Multitask-Unterstützung:Unterstützt T2V (Text-zu-Video), I2V (Bild-zu-Video), V2V (Video-zu-Video), T2I (Text-zu-Bild), V2A (Video-zu-Audio).
Hohe Effizienz:Der leistungsstarke Wan-VAE kann 1080p-Videos mit zeitlicher Konsistenz verarbeiten.
Sprachunterstützung:Das erste Modell, das die Generierung von Text in Chinesisch und Englisch unterstützt.

📂 Einrichtungsanleitung

Aktualisieren Sie ComfyUI auf die neueste Version.
Laden Sie die erforderlichen Dateien herunter und legen Sie sie in den angegebenen ComfyUI-Unterverzeichnissen ab:

Dateibeschreibung	Dateiname (Zum Herunterladen klicken)	Zielordner
Text-Encoder	`umt5_xxl_fp8_e4m3fn_scaled.safetensors`	`ComfyUI/models/text_encoders/`
VAE	`wan_2.1_vae.safetensors`	`ComfyUI/models/vae/`
CLIP Vision (für Bild-zu-Video)	`clip_vision_h.safetensors`	`ComfyUI/models/clip_vision/`
Videomodell (Diffusionsmodell)	Auswählen aus diesem Verzeichnis table2_row4_col2_suffix	`ComfyUI/models/diffusion_models/`

Empfehlung für Videomodelle:

Für beste Qualität wird die fp16-Version empfohlen.
Qualitätsranking (hoch zu niedrig):fp16 > bf16 > fp8_scaled > fp8_e4m3fn。
Wenn der VRAM nicht ausreicht, ziehen Sie die Verwendung der fp8-Version in Betracht.

📜 Beispiel-Workflows

ComfyUI bietet JSON-basierte Workflows. Sie finden diese JSON-Dateien in den offiziellen ComfyUI-Beispielen oder der Dokumentation. Hier sind GIF-Demonstrationen einiger Workflows:

Text zu Video (Text to Video)

Dieser Workflow kann mit den 1.3B- oder 14B-Modellen verwendet werden. Verwenden Sie beispielsweise:

Modelldatei:wan2.1_t2v_1.3B_fp16.safetensors (In ComfyUI/models/diffusion_models/ ablegen)

Ausgabe: 480p / 720p (abhängig vom ausgewählten Modell und den Einstellungen)

Laufzeit: Die Generierung eines 5-Sekunden-480p-Videos mit einer RTX 4090 dauert etwa 4 Minuten.

Workflow-Beispiel (1.3B 480p):

Text to Video 1.3B 480P Workflow Example

Workflow-Beispiel (14B 720p):

JSON-Workflow-Datei:text_to_video_wan.json

Bild zu Video (Image to Video)

Dieser Workflow erfordert die folgenden Dateien:

Modelldatei (480p):wan2.1_i2v_480p_14B_fp16.safetensors (In ComfyUI/models/diffusion_models/ ablegen)
Modelldatei (720p, optional):wan2.1_i2v_720p_14B_fp16.safetensors (In ComfyUI/models/diffusion_models/ ablegen)
CLIP Vision:clip_vision_h.safetensors (In ComfyUI/models/clip_vision/ ablegen)

Ausgabe: 480p (Standardbeispiel: 33 Frames @ 512x512) oder 720p (wenn VRAM und Hardware dies zulassen).

Workflow-Beispiel (14B 480p):

Image to Video 14B 480P Workflow Example

Workflow-Beispiel (14B 720p):

Image to Video 14B 720P Workflow Example

JSON-Workflow-Datei:image_to_video_wan_example.json

📝 Hinweise

Text-Encoder:Erforderlich (umt5_xxl_fp8_e4m3fn_scaled.safetensors)。
VRAM-Anforderung:Um das 480p/720p Bild-zu-Video-Modell (z. B. 14B I2V) mit umt5_xxl_fp8_e4m3fn_scaled.safetensors auszuführen, benötigen Sie etwa 40 GB VRAM.
1.3B T2V-Modell VRAM:Das 1.3B Text-zu-Video-Modell benötigt ungefähr 15 GB VRAM.
VRAM sparen:Beispiele verwenden normalerweise 16-Bit-Dateien (fp16). Wenn Sie jedoch wenig VRAM haben, können Sie stattdessen fp8-Versionen verwenden.
720p-Modelle:720p-Modelle funktionieren gut, erfordern jedoch höhere Hardwarespezifikationen und Geduld bei der Ausführung.