ComfyUI ahora es compatible con Wan2.1

🧠 ¿Qué es Wan2.1?

Wan2.1 es una potente serie de modelos de generación de vídeo de código abierto de Alibaba.

La serie incluye:

Tipo de modelo	Resolución	VRAM (aprox.)
Texto a vídeo 14B (T2V)	480P / 720P	~40GB
Texto a vídeo 1.3B (T2V)	480P	~8–15GB
Imagen a vídeo 14B (I2V)	480P / 720P	~40GB
Generación de texto visual	Multilingüe (chino/inglés)	Variable

🔧 Características principales

Apto para el consumidor:El modelo T2V 1.3B puede ejecutarse en GPU con aproximadamente 8,19 GB de VRAM.
Soporte multitarea:Admite T2V (Texto a vídeo), I2V (Imagen a vídeo), V2V (Vídeo a vídeo), T2I (Texto a imagen), V2A (Vídeo a audio).
Alta eficiencia:El potente Wan-VAE puede procesar vídeos de 1080p con coherencia temporal.
Soporte de idiomas:El primer modelo que admite la generación de texto tanto en chino como en inglés.

📂 Guía de configuración

Actualice ComfyUI a la última versión.
Descargue los archivos necesarios y colóquelos en los subdirectorios especificados de ComfyUI:

Descripción del archivo	Nombre de archivo (Haga clic para descargar)	Carpeta de destino
Codificador de texto	`umt5_xxl_fp8_e4m3fn_scaled.safetensors`	`ComfyUI/models/text_encoders/`
VAE	`wan_2.1_vae.safetensors`	`ComfyUI/models/vae/`
CLIP Vision (para Imagen a vídeo)	`clip_vision_h.safetensors`	`ComfyUI/models/clip_vision/`
Modelo de vídeo (Modelo de difusión)	Seleccionar de este directorio table2_row4_col2_suffix	`ComfyUI/models/diffusion_models/`

Recomendación de modelo de vídeo:

Para obtener la mejor calidad, se recomienda la versión fp16.
Clasificación de calidad (de mayor a menor):fp16 > bf16 > fp8_scaled > fp8_e4m3fn。
Si la VRAM es insuficiente, considere usar la versión fp8.

📜 Ejemplos de flujos de trabajo

ComfyUI proporciona flujos de trabajo basados en JSON. Puede encontrar estos archivos JSON en los ejemplos oficiales de ComfyUI o en la documentación. Aquí hay demostraciones GIF de algunos flujos de trabajo:

Texto a vídeo (Text to Video)

Este flujo de trabajo se puede utilizar con los modelos 1.3B o 14B. Por ejemplo, utilice:

Archivo de modelo:wan2.1_t2v_1.3B_fp16.safetensors (Colocar en ComfyUI/models/diffusion_models/)

Salida: 480p / 720p (depende del modelo y la configuración seleccionados)

Tiempo de ejecución: Generar un vídeo de 5 segundos a 480p con una RTX 4090 tarda unos 4 minutos.

Ejemplo de flujo de trabajo (1.3B 480p):

Text to Video 1.3B 480P Workflow Example

Ejemplo de flujo de trabajo (14B 720p):

Archivo de flujo de trabajo JSON:text_to_video_wan.json

Imagen a vídeo (Image to Video)

Este flujo de trabajo requiere los siguientes archivos:

Archivo de modelo (480p):wan2.1_i2v_480p_14B_fp16.safetensors (Colocar en ComfyUI/models/diffusion_models/)
Archivo de modelo (720p, opcional):wan2.1_i2v_720p_14B_fp16.safetensors (Colocar en ComfyUI/models/diffusion_models/)
CLIP Vision:clip_vision_h.safetensors (Colocar en ComfyUI/models/clip_vision/)

Salida: 480p (ejemplo predeterminado: 33 fotogramas @ 512x512) o 720p (si la VRAM y el hardware lo permiten).

Ejemplo de flujo de trabajo (14B 480p):

Image to Video 14B 480P Workflow Example

Ejemplo de flujo de trabajo (14B 720p):

Image to Video 14B 720P Workflow Example

Archivo de flujo de trabajo JSON:image_to_video_wan_example.json

📝 Notas

Codificador de texto:Requerido (umt5_xxl_fp8_e4m3fn_scaled.safetensors)。
Requisito de VRAM:Para ejecutar el modelo de Imagen a vídeo de 480p/720p (p. ej., 14B I2V) con umt5_xxl_fp8_e4m3fn_scaled.safetensors, necesita unos 40 GB de VRAM.
VRAM del modelo T2V 1.3B:El modelo de Texto a vídeo 1.3B requiere aproximadamente 15 GB de VRAM.
Ahorro de VRAM:Los ejemplos suelen utilizar archivos de 16 bits (fp16), pero si tiene poca VRAM, puede utilizar versiones fp8 en su lugar.
Modelos 720p:Los modelos 720p funcionan bien pero requieren especificaciones de hardware más altas y paciencia para ejecutarlos.