Wan2.1 es una potente serie de modelos de generación de vídeo de código abierto de Alibaba.
La serie incluye:
| Tipo de modelo | Resolución | VRAM (aprox.) |
|---|---|---|
| Texto a vídeo 14B (T2V) | 480P / 720P | ~40GB |
| Texto a vídeo 1.3B (T2V) | 480P | ~8–15GB |
| Imagen a vídeo 14B (I2V) | 480P / 720P | ~40GB |
| Generación de texto visual | Multilingüe (chino/inglés) | Variable |
| Descripción del archivo | Nombre de archivo (Haga clic para descargar) | Carpeta de destino |
|---|---|---|
| Codificador de texto | umt5_xxl_fp8_e4m3fn_scaled.safetensors | ComfyUI/models/text_encoders/ |
| VAE | wan_2.1_vae.safetensors | ComfyUI/models/vae/ |
| CLIP Vision (para Imagen a vídeo) | clip_vision_h.safetensors | ComfyUI/models/clip_vision/ |
| Modelo de vídeo (Modelo de difusión) | Seleccionar de este directorio table2_row4_col2_suffix | ComfyUI/models/diffusion_models/ |
Recomendación de modelo de vídeo:
fp16 > bf16 > fp8_scaled > fp8_e4m3fn。ComfyUI proporciona flujos de trabajo basados en JSON. Puede encontrar estos archivos JSON en los ejemplos oficiales de ComfyUI o en la documentación. Aquí hay demostraciones GIF de algunos flujos de trabajo:
Este flujo de trabajo se puede utilizar con los modelos 1.3B o 14B. Por ejemplo, utilice:
wan2.1_t2v_1.3B_fp16.safetensors (Colocar en ComfyUI/models/diffusion_models/)Salida: 480p / 720p (depende del modelo y la configuración seleccionados)
Tiempo de ejecución: Generar un vídeo de 5 segundos a 480p con una RTX 4090 tarda unos 4 minutos.
Ejemplo de flujo de trabajo (1.3B 480p):
Ejemplo de flujo de trabajo (14B 720p):
Archivo de flujo de trabajo JSON:text_to_video_wan.json
Este flujo de trabajo requiere los siguientes archivos:
wan2.1_i2v_480p_14B_fp16.safetensors (Colocar en ComfyUI/models/diffusion_models/)wan2.1_i2v_720p_14B_fp16.safetensors (Colocar en ComfyUI/models/diffusion_models/)clip_vision_h.safetensors (Colocar en ComfyUI/models/clip_vision/)Salida: 480p (ejemplo predeterminado: 33 fotogramas @ 512x512) o 720p (si la VRAM y el hardware lo permiten).
Ejemplo de flujo de trabajo (14B 480p):
Ejemplo de flujo de trabajo (14B 720p):
Archivo de flujo de trabajo JSON:image_to_video_wan_example.json
umt5_xxl_fp8_e4m3fn_scaled.safetensors)。umt5_xxl_fp8_e4m3fn_scaled.safetensors, necesita unos 40 GB de VRAM.