ComfyUI ahora es compatible con Wan2.1

🧠 ¿Qué es Wan2.1?

Wan2.1 es una potente serie de modelos de generación de vídeo de código abierto de Alibaba.

La serie incluye:

Tipo de modeloResoluciónVRAM (aprox.)
Texto a vídeo 14B (T2V)480P / 720P~40GB
Texto a vídeo 1.3B (T2V)480P~8–15GB
Imagen a vídeo 14B (I2V)480P / 720P~40GB
Generación de texto visualMultilingüe (chino/inglés)Variable

🔧 Características principales

  • Apto para el consumidor:El modelo T2V 1.3B puede ejecutarse en GPU con aproximadamente 8,19 GB de VRAM.
  • Soporte multitarea:Admite T2V (Texto a vídeo), I2V (Imagen a vídeo), V2V (Vídeo a vídeo), T2I (Texto a imagen), V2A (Vídeo a audio).
  • Alta eficiencia:El potente Wan-VAE puede procesar vídeos de 1080p con coherencia temporal.
  • Soporte de idiomas:El primer modelo que admite la generación de texto tanto en chino como en inglés.

📂 Guía de configuración

  1. Actualice ComfyUI a la última versión.
  2. Descargue los archivos necesarios y colóquelos en los subdirectorios especificados de ComfyUI:
Descripción del archivoNombre de archivo (Haga clic para descargar)Carpeta de destino
Codificador de textoumt5_xxl_fp8_e4m3fn_scaled.safetensorsComfyUI/models/text_encoders/
VAEwan_2.1_vae.safetensorsComfyUI/models/vae/
CLIP Vision (para Imagen a vídeo)clip_vision_h.safetensorsComfyUI/models/clip_vision/
Modelo de vídeo (Modelo de difusión)Seleccionar de este directorio table2_row4_col2_suffixComfyUI/models/diffusion_models/

Recomendación de modelo de vídeo:

  • Para obtener la mejor calidad, se recomienda la versión fp16.
  • Clasificación de calidad (de mayor a menor):fp16 > bf16 > fp8_scaled > fp8_e4m3fn
  • Si la VRAM es insuficiente, considere usar la versión fp8.

📜 Ejemplos de flujos de trabajo

ComfyUI proporciona flujos de trabajo basados en JSON. Puede encontrar estos archivos JSON en los ejemplos oficiales de ComfyUI o en la documentación. Aquí hay demostraciones GIF de algunos flujos de trabajo:

Texto a vídeo (Text to Video)

Este flujo de trabajo se puede utilizar con los modelos 1.3B o 14B. Por ejemplo, utilice:

Salida: 480p / 720p (depende del modelo y la configuración seleccionados)

Tiempo de ejecución: Generar un vídeo de 5 segundos a 480p con una RTX 4090 tarda unos 4 minutos.

Ejemplo de flujo de trabajo (1.3B 480p):

Text to Video 1.3B 480P Workflow Example

Ejemplo de flujo de trabajo (14B 720p):

Text to Video 14B 720P Workflow Example

Archivo de flujo de trabajo JSON:text_to_video_wan.json

Imagen a vídeo (Image to Video)

Este flujo de trabajo requiere los siguientes archivos:

Salida: 480p (ejemplo predeterminado: 33 fotogramas @ 512x512) o 720p (si la VRAM y el hardware lo permiten).

Ejemplo de flujo de trabajo (14B 480p):

Image to Video 14B 480P Workflow Example

Ejemplo de flujo de trabajo (14B 720p):

Image to Video 14B 720P Workflow Example

Archivo de flujo de trabajo JSON:image_to_video_wan_example.json

📝 Notas

  • Codificador de texto:Requerido (umt5_xxl_fp8_e4m3fn_scaled.safetensors)。
  • Requisito de VRAM:Para ejecutar el modelo de Imagen a vídeo de 480p/720p (p. ej., 14B I2V) con umt5_xxl_fp8_e4m3fn_scaled.safetensors, necesita unos 40 GB de VRAM.
  • VRAM del modelo T2V 1.3B:El modelo de Texto a vídeo 1.3B requiere aproximadamente 15 GB de VRAM.
  • Ahorro de VRAM:Los ejemplos suelen utilizar archivos de 16 bits (fp16), pero si tiene poca VRAM, puede utilizar versiones fp8 en su lugar.
  • Modelos 720p:Los modelos 720p funcionan bien pero requieren especificaciones de hardware más altas y paciencia para ejecutarlos.