ComfyUI prend désormais en charge Wan2.1

🧠 Qu'est-ce que Wan2.1 ?

Wan2.1 est une puissante série de modèles de génération vidéo open source d'Alibaba.

La série comprend :

Type de modèle	Résolution	VRAM (env.)
Texte-vers-Vidéo 14B (T2V)	480P / 720P	~40GB
Texte-vers-Vidéo 1.3B (T2V)	480P	~8–15GB
Image-vers-Vidéo 14B (I2V)	480P / 720P	~40GB
Génération de texte visuel	Multilingue (chinois/anglais)	Variable

🔧 Caractéristiques principales

Adapté au grand public :Le modèle T2V 1.3B peut fonctionner sur des GPU avec environ 8,19 Go de VRAM.
Prise en charge multi-tâches :Prend en charge T2V (Texte-vers-Vidéo), I2V (Image-vers-Vidéo), V2V (Vidéo-vers-Vidéo), T2I (Texte-vers-Image), V2A (Vidéo-vers-Audio).
Haute efficacité :Le puissant Wan-VAE peut traiter des vidéos 1080p avec une cohérence temporelle.
Prise en charge linguistique :Le premier modèle à prendre en charge la génération de texte en chinois et en anglais.

📂 Guide de configuration

Mettez à jour ComfyUI vers la dernière version.
Téléchargez les fichiers requis et placez-les dans les sous-répertoires ComfyUI spécifiés :

Description du fichier	Nom du fichier (Cliquez pour télécharger)	Dossier cible
Encodeur de texte	`umt5_xxl_fp8_e4m3fn_scaled.safetensors`	`ComfyUI/models/text_encoders/`
VAE	`wan_2.1_vae.safetensors`	`ComfyUI/models/vae/`
CLIP Vision (pour Image-vers-Vidéo)	`clip_vision_h.safetensors`	`ComfyUI/models/clip_vision/`
Modèle vidéo (Modèle de diffusion)	Sélectionner depuis ce répertoire table2_row4_col2_suffix	`ComfyUI/models/diffusion_models/`

Recommandation du modèle vidéo :

Pour une meilleure qualité, la version fp16 est recommandée.
Classement de la qualité (du plus élevé au plus bas) :fp16 > bf16 > fp8_scaled > fp8_e4m3fn。
Si la VRAM est insuffisante, envisagez d'utiliser la version fp8.

📜 Exemples de workflows

ComfyUI fournit des workflows basés sur JSON. Vous pouvez trouver ces fichiers JSON dans les exemples officiels de ComfyUI ou dans la documentation. Voici des démonstrations GIF de certains workflows :

Texte vers Vidéo (Text to Video)

Ce workflow peut être utilisé avec les modèles 1.3B ou 14B. Par exemple, utilisez :

Fichier modèle :wan2.1_t2v_1.3B_fp16.safetensors (Placer dans ComfyUI/models/diffusion_models/)

Sortie : 480p / 720p (dépend du modèle et des paramètres sélectionnés)

Temps d'exécution : La génération d'une vidéo 480p de 5 secondes avec une RTX 4090 prend environ 4 minutes.

Exemple de workflow (1.3B 480p) :

Text to Video 1.3B 480P Workflow Example

Exemple de workflow (14B 720p) :

Fichier de workflow JSON :text_to_video_wan.json

Image vers Vidéo (Image to Video)

Ce workflow nécessite les fichiers suivants :

Fichier modèle (480p) :wan2.1_i2v_480p_14B_fp16.safetensors (Placer dans ComfyUI/models/diffusion_models/)
Fichier modèle (720p, optionnel) :wan2.1_i2v_720p_14B_fp16.safetensors (Placer dans ComfyUI/models/diffusion_models/)
CLIP Vision :clip_vision_h.safetensors (Placer dans ComfyUI/models/clip_vision/)

Sortie : 480p (exemple par défaut : 33 images @ 512x512) ou 720p (si la VRAM et le matériel le permettent).

Exemple de workflow (14B 480p) :

Image to Video 14B 480P Workflow Example

Exemple de workflow (14B 720p) :

Image to Video 14B 720P Workflow Example

Fichier de workflow JSON :image_to_video_wan_example.json

📝 Remarques

Encodeur de texte :Requis (umt5_xxl_fp8_e4m3fn_scaled.safetensors)。
Exigence VRAM :Pour exécuter le modèle Image-vers-Vidéo 480p/720p (par exemple, 14B I2V) avec umt5_xxl_fp8_e4m3fn_scaled.safetensors, vous avez besoin d'environ 40 Go de VRAM.
VRAM du modèle T2V 1.3B :Le modèle Texte-vers-Vidéo 1.3B nécessite environ 15 Go de VRAM.
Économie de VRAM :Les exemples utilisent généralement des fichiers 16 bits (fp16), mais si vous manquez de VRAM, vous pouvez utiliser des versions fp8 à la place.
Modèles 720p :Les modèles 720p fonctionnent bien mais nécessitent des spécifications matérielles plus élevées et de la patience pour fonctionner.