Wan2.1 es una potente serie de modelos de generación de vídeo de código abierto de Alibaba.
La serie incluye:
Tipo de modelo | Resolución | VRAM (aprox.) |
---|---|---|
Texto a vídeo 14B (T2V) | 480P / 720P | ~40GB |
Texto a vídeo 1.3B (T2V) | 480P | ~8–15GB |
Imagen a vídeo 14B (I2V) | 480P / 720P | ~40GB |
Generación de texto visual | Multilingüe (chino/inglés) | Variable |
Descripción del archivo | Nombre de archivo (Haga clic para descargar) | Carpeta de destino |
---|---|---|
Codificador de texto | umt5_xxl_fp8_e4m3fn_scaled.safetensors | ComfyUI/models/text_encoders/ |
VAE | wan_2.1_vae.safetensors | ComfyUI/models/vae/ |
CLIP Vision (para Imagen a vídeo) | clip_vision_h.safetensors | ComfyUI/models/clip_vision/ |
Modelo de vídeo (Modelo de difusión) | Seleccionar de este directorio table2_row4_col2_suffix | ComfyUI/models/diffusion_models/ |
Recomendación de modelo de vídeo:
fp16
> bf16
> fp8_scaled
> fp8_e4m3fn
。ComfyUI proporciona flujos de trabajo basados en JSON. Puede encontrar estos archivos JSON en los ejemplos oficiales de ComfyUI o en la documentación. Aquí hay demostraciones GIF de algunos flujos de trabajo:
Este flujo de trabajo se puede utilizar con los modelos 1.3B o 14B. Por ejemplo, utilice:
wan2.1_t2v_1.3B_fp16.safetensors
(Colocar en ComfyUI/models/diffusion_models/
)Salida: 480p / 720p (depende del modelo y la configuración seleccionados)
Tiempo de ejecución: Generar un vídeo de 5 segundos a 480p con una RTX 4090 tarda unos 4 minutos.
Ejemplo de flujo de trabajo (1.3B 480p):
Ejemplo de flujo de trabajo (14B 720p):
Archivo de flujo de trabajo JSON:text_to_video_wan.json
Este flujo de trabajo requiere los siguientes archivos:
wan2.1_i2v_480p_14B_fp16.safetensors
(Colocar en ComfyUI/models/diffusion_models/
)wan2.1_i2v_720p_14B_fp16.safetensors
(Colocar en ComfyUI/models/diffusion_models/
)clip_vision_h.safetensors
(Colocar en ComfyUI/models/clip_vision/
)Salida: 480p (ejemplo predeterminado: 33 fotogramas @ 512x512) o 720p (si la VRAM y el hardware lo permiten).
Ejemplo de flujo de trabajo (14B 480p):
Ejemplo de flujo de trabajo (14B 720p):
Archivo de flujo de trabajo JSON:image_to_video_wan_example.json
umt5_xxl_fp8_e4m3fn_scaled.safetensors
)。umt5_xxl_fp8_e4m3fn_scaled.safetensors
, necesita unos 40 GB de VRAM.