Wan2.1 est une puissante série de modèles de génération vidéo open source d'Alibaba.
La série comprend :
| Type de modèle | Résolution | VRAM (env.) |
|---|---|---|
| Texte-vers-Vidéo 14B (T2V) | 480P / 720P | ~40GB |
| Texte-vers-Vidéo 1.3B (T2V) | 480P | ~8–15GB |
| Image-vers-Vidéo 14B (I2V) | 480P / 720P | ~40GB |
| Génération de texte visuel | Multilingue (chinois/anglais) | Variable |
| Description du fichier | Nom du fichier (Cliquez pour télécharger) | Dossier cible |
|---|---|---|
| Encodeur de texte | umt5_xxl_fp8_e4m3fn_scaled.safetensors | ComfyUI/models/text_encoders/ |
| VAE | wan_2.1_vae.safetensors | ComfyUI/models/vae/ |
| CLIP Vision (pour Image-vers-Vidéo) | clip_vision_h.safetensors | ComfyUI/models/clip_vision/ |
| Modèle vidéo (Modèle de diffusion) | Sélectionner depuis ce répertoire table2_row4_col2_suffix | ComfyUI/models/diffusion_models/ |
Recommandation du modèle vidéo :
fp16 > bf16 > fp8_scaled > fp8_e4m3fn。ComfyUI fournit des workflows basés sur JSON. Vous pouvez trouver ces fichiers JSON dans les exemples officiels de ComfyUI ou dans la documentation. Voici des démonstrations GIF de certains workflows :
Ce workflow peut être utilisé avec les modèles 1.3B ou 14B. Par exemple, utilisez :
wan2.1_t2v_1.3B_fp16.safetensors (Placer dans ComfyUI/models/diffusion_models/)Sortie : 480p / 720p (dépend du modèle et des paramètres sélectionnés)
Temps d'exécution : La génération d'une vidéo 480p de 5 secondes avec une RTX 4090 prend environ 4 minutes.
Exemple de workflow (1.3B 480p) :
Exemple de workflow (14B 720p) :
Fichier de workflow JSON :text_to_video_wan.json
Ce workflow nécessite les fichiers suivants :
wan2.1_i2v_480p_14B_fp16.safetensors (Placer dans ComfyUI/models/diffusion_models/)wan2.1_i2v_720p_14B_fp16.safetensors (Placer dans ComfyUI/models/diffusion_models/)clip_vision_h.safetensors (Placer dans ComfyUI/models/clip_vision/)Sortie : 480p (exemple par défaut : 33 images @ 512x512) ou 720p (si la VRAM et le matériel le permettent).
Exemple de workflow (14B 480p) :
Exemple de workflow (14B 720p) :
Fichier de workflow JSON :image_to_video_wan_example.json
umt5_xxl_fp8_e4m3fn_scaled.safetensors)。umt5_xxl_fp8_e4m3fn_scaled.safetensors, vous avez besoin d'environ 40 Go de VRAM.