ComfyUI prend désormais en charge Wan2.1

🧠 Qu'est-ce que Wan2.1 ?

Wan2.1 est une puissante série de modèles de génération vidéo open source d'Alibaba.

La série comprend :

Type de modèleRésolutionVRAM (env.)
Texte-vers-Vidéo 14B (T2V)480P / 720P~40GB
Texte-vers-Vidéo 1.3B (T2V)480P~8–15GB
Image-vers-Vidéo 14B (I2V)480P / 720P~40GB
Génération de texte visuelMultilingue (chinois/anglais)Variable

🔧 Caractéristiques principales

  • Adapté au grand public :Le modèle T2V 1.3B peut fonctionner sur des GPU avec environ 8,19 Go de VRAM.
  • Prise en charge multi-tâches :Prend en charge T2V (Texte-vers-Vidéo), I2V (Image-vers-Vidéo), V2V (Vidéo-vers-Vidéo), T2I (Texte-vers-Image), V2A (Vidéo-vers-Audio).
  • Haute efficacité :Le puissant Wan-VAE peut traiter des vidéos 1080p avec une cohérence temporelle.
  • Prise en charge linguistique :Le premier modèle à prendre en charge la génération de texte en chinois et en anglais.

📂 Guide de configuration

  1. Mettez à jour ComfyUI vers la dernière version.
  2. Téléchargez les fichiers requis et placez-les dans les sous-répertoires ComfyUI spécifiés :
Description du fichierNom du fichier (Cliquez pour télécharger)Dossier cible
Encodeur de texteumt5_xxl_fp8_e4m3fn_scaled.safetensorsComfyUI/models/text_encoders/
VAEwan_2.1_vae.safetensorsComfyUI/models/vae/
CLIP Vision (pour Image-vers-Vidéo)clip_vision_h.safetensorsComfyUI/models/clip_vision/
Modèle vidéo (Modèle de diffusion)Sélectionner depuis ce répertoire table2_row4_col2_suffixComfyUI/models/diffusion_models/

Recommandation du modèle vidéo :

  • Pour une meilleure qualité, la version fp16 est recommandée.
  • Classement de la qualité (du plus élevé au plus bas) :fp16 > bf16 > fp8_scaled > fp8_e4m3fn
  • Si la VRAM est insuffisante, envisagez d'utiliser la version fp8.

📜 Exemples de workflows

ComfyUI fournit des workflows basés sur JSON. Vous pouvez trouver ces fichiers JSON dans les exemples officiels de ComfyUI ou dans la documentation. Voici des démonstrations GIF de certains workflows :

Texte vers Vidéo (Text to Video)

Ce workflow peut être utilisé avec les modèles 1.3B ou 14B. Par exemple, utilisez :

Sortie : 480p / 720p (dépend du modèle et des paramètres sélectionnés)

Temps d'exécution : La génération d'une vidéo 480p de 5 secondes avec une RTX 4090 prend environ 4 minutes.

Exemple de workflow (1.3B 480p) :

Text to Video 1.3B 480P Workflow Example

Exemple de workflow (14B 720p) :

Text to Video 14B 720P Workflow Example

Fichier de workflow JSON :text_to_video_wan.json

Image vers Vidéo (Image to Video)

Ce workflow nécessite les fichiers suivants :

Sortie : 480p (exemple par défaut : 33 images @ 512x512) ou 720p (si la VRAM et le matériel le permettent).

Exemple de workflow (14B 480p) :

Image to Video 14B 480P Workflow Example

Exemple de workflow (14B 720p) :

Image to Video 14B 720P Workflow Example

Fichier de workflow JSON :image_to_video_wan_example.json

📝 Remarques

  • Encodeur de texte :Requis (umt5_xxl_fp8_e4m3fn_scaled.safetensors)。
  • Exigence VRAM :Pour exécuter le modèle Image-vers-Vidéo 480p/720p (par exemple, 14B I2V) avec umt5_xxl_fp8_e4m3fn_scaled.safetensors, vous avez besoin d'environ 40 Go de VRAM.
  • VRAM du modèle T2V 1.3B :Le modèle Texte-vers-Vidéo 1.3B nécessite environ 15 Go de VRAM.
  • Économie de VRAM :Les exemples utilisent généralement des fichiers 16 bits (fp16), mais si vous manquez de VRAM, vous pouvez utiliser des versions fp8 à la place.
  • Modèles 720p :Les modèles 720p fonctionnent bien mais nécessitent des spécifications matérielles plus élevées et de la patience pour fonctionner.