Wan2.1 est une puissante série de modèles de génération vidéo open source d'Alibaba.
La série comprend :
Type de modèle | Résolution | VRAM (env.) |
---|---|---|
Texte-vers-Vidéo 14B (T2V) | 480P / 720P | ~40GB |
Texte-vers-Vidéo 1.3B (T2V) | 480P | ~8–15GB |
Image-vers-Vidéo 14B (I2V) | 480P / 720P | ~40GB |
Génération de texte visuel | Multilingue (chinois/anglais) | Variable |
Description du fichier | Nom du fichier (Cliquez pour télécharger) | Dossier cible |
---|---|---|
Encodeur de texte | umt5_xxl_fp8_e4m3fn_scaled.safetensors | ComfyUI/models/text_encoders/ |
VAE | wan_2.1_vae.safetensors | ComfyUI/models/vae/ |
CLIP Vision (pour Image-vers-Vidéo) | clip_vision_h.safetensors | ComfyUI/models/clip_vision/ |
Modèle vidéo (Modèle de diffusion) | Sélectionner depuis ce répertoire table2_row4_col2_suffix | ComfyUI/models/diffusion_models/ |
Recommandation du modèle vidéo :
fp16
> bf16
> fp8_scaled
> fp8_e4m3fn
。ComfyUI fournit des workflows basés sur JSON. Vous pouvez trouver ces fichiers JSON dans les exemples officiels de ComfyUI ou dans la documentation. Voici des démonstrations GIF de certains workflows :
Ce workflow peut être utilisé avec les modèles 1.3B ou 14B. Par exemple, utilisez :
wan2.1_t2v_1.3B_fp16.safetensors
(Placer dans ComfyUI/models/diffusion_models/
)Sortie : 480p / 720p (dépend du modèle et des paramètres sélectionnés)
Temps d'exécution : La génération d'une vidéo 480p de 5 secondes avec une RTX 4090 prend environ 4 minutes.
Exemple de workflow (1.3B 480p) :
Exemple de workflow (14B 720p) :
Fichier de workflow JSON :text_to_video_wan.json
Ce workflow nécessite les fichiers suivants :
wan2.1_i2v_480p_14B_fp16.safetensors
(Placer dans ComfyUI/models/diffusion_models/
)wan2.1_i2v_720p_14B_fp16.safetensors
(Placer dans ComfyUI/models/diffusion_models/
)clip_vision_h.safetensors
(Placer dans ComfyUI/models/clip_vision/
)Sortie : 480p (exemple par défaut : 33 images @ 512x512) ou 720p (si la VRAM et le matériel le permettent).
Exemple de workflow (14B 480p) :
Exemple de workflow (14B 720p) :
Fichier de workflow JSON :image_to_video_wan_example.json
umt5_xxl_fp8_e4m3fn_scaled.safetensors
)。umt5_xxl_fp8_e4m3fn_scaled.safetensors
, vous avez besoin d'environ 40 Go de VRAM.