ComfyUI agora suporta Wan2.1

🧠 O que é Wan2.1?

Wan2.1 é uma poderosa série de modelos de geração de vídeo de código aberto da Alibaba.

A série inclui:

Tipo de ModeloResoluçãoVRAM (aprox.)
Texto para Vídeo 14B (T2V)480P / 720P~40GB
Texto para Vídeo 1.3B (T2V)480P~8–15GB
Imagem para Vídeo 14B (I2V)480P / 720P~40GB
Geração Visual de TextoMultilíngue (Chinês/Inglês)Variável

🔧 Principais Características

  • Amigável para o consumidor:O modelo T2V 1.3B pode rodar em GPUs com aproximadamente 8.19 GB de VRAM.
  • Suporte Multitarefa:Suporta T2V (Texto para Vídeo), I2V (Imagem para Vídeo), V2V (Vídeo para Vídeo), T2I (Texto para Imagem), V2A (Vídeo para Áudio).
  • Alta Eficiência:O poderoso Wan-VAE pode processar vídeos de 1080p com consistência temporal.
  • Suporte a Idiomas:O primeiro modelo a suportar a geração de texto em Chinês e Inglês.

📂 Guia de Configuração

  1. Atualize o ComfyUI para a versão mais recente.
  2. Baixe os arquivos necessários e coloque-os nos subdiretórios especificados do ComfyUI:
Descrição do ArquivoNome do Arquivo (Clique para baixar)Pasta de Destino
Codificador de Textoumt5_xxl_fp8_e4m3fn_scaled.safetensorsComfyUI/models/text_encoders/
VAEwan_2.1_vae.safetensorsComfyUI/models/vae/
CLIP Vision (para Imagem para Vídeo)clip_vision_h.safetensorsComfyUI/models/clip_vision/
Modelo de Vídeo (Modelo de Difusão)Selecione de este diretório table2_row4_col2_suffixComfyUI/models/diffusion_models/

Recomendação de Modelo de Vídeo:

  • Para melhor qualidade, a versão fp16 é recomendada.
  • Classificação de qualidade (alta para baixa):fp16 > bf16 > fp8_scaled > fp8_e4m3fn
  • Se a VRAM for insuficiente, considere usar a versão fp8.

📜 Exemplos de Fluxos de Trabalho

O ComfyUI fornece fluxos de trabalho baseados em JSON. Você pode encontrar esses arquivos JSON nos exemplos oficiais do ComfyUI ou na documentação. Aqui estão demonstrações em GIF de alguns fluxos de trabalho:

Texto para Vídeo (Text to Video)

Este fluxo de trabalho pode ser usado com os modelos 1.3B ou 14B. Por exemplo, use:

Saída: 480p / 720p (depende do modelo e configurações selecionadas)

Tempo de execução: Gerar um vídeo de 5 segundos em 480p com uma RTX 4090 leva cerca de 4 minutos.

Exemplo de Fluxo de Trabalho (1.3B 480p):

Text to Video 1.3B 480P Workflow Example

Exemplo de Fluxo de Trabalho (14B 720p):

Text to Video 14B 720P Workflow Example

Arquivo de Fluxo de Trabalho JSON:text_to_video_wan.json

Imagem para Vídeo (Image to Video)

Este fluxo de trabalho requer os seguintes arquivos:

Saída: 480p (exemplo padrão: 33 quadros @ 512x512) ou 720p (se a VRAM e o hardware permitirem).

Exemplo de Fluxo de Trabalho (14B 480p):

Image to Video 14B 480P Workflow Example

Exemplo de Fluxo de Trabalho (14B 720p):

Image to Video 14B 720P Workflow Example

Arquivo de Fluxo de Trabalho JSON:image_to_video_wan_example.json

📝 Notas

  • Codificador de Texto:Requerido (umt5_xxl_fp8_e4m3fn_scaled.safetensors)。
  • Requisito de VRAM:Para rodar o modelo Imagem para Vídeo 480p/720p (ex: 14B I2V) com umt5_xxl_fp8_e4m3fn_scaled.safetensors, você precisa de cerca de 40GB de VRAM.
  • VRAM do Modelo T2V 1.3B:O modelo Texto para Vídeo 1.3B requer aproximadamente 15GB de VRAM.
  • Economizando VRAM:Os exemplos normalmente usam arquivos de 16 bits (fp16), mas se você tiver pouca VRAM, pode usar versões fp8.
  • Modelos 720p:Os modelos 720p funcionam bem, mas exigem especificações de hardware mais altas e paciência para rodar.