Wan2.1 é uma poderosa série de modelos de geração de vídeo de código aberto da Alibaba.
A série inclui:
Tipo de Modelo | Resolução | VRAM (aprox.) |
---|---|---|
Texto para Vídeo 14B (T2V) | 480P / 720P | ~40GB |
Texto para Vídeo 1.3B (T2V) | 480P | ~8–15GB |
Imagem para Vídeo 14B (I2V) | 480P / 720P | ~40GB |
Geração Visual de Texto | Multilíngue (Chinês/Inglês) | Variável |
Descrição do Arquivo | Nome do Arquivo (Clique para baixar) | Pasta de Destino |
---|---|---|
Codificador de Texto | umt5_xxl_fp8_e4m3fn_scaled.safetensors | ComfyUI/models/text_encoders/ |
VAE | wan_2.1_vae.safetensors | ComfyUI/models/vae/ |
CLIP Vision (para Imagem para Vídeo) | clip_vision_h.safetensors | ComfyUI/models/clip_vision/ |
Modelo de Vídeo (Modelo de Difusão) | Selecione de este diretório table2_row4_col2_suffix | ComfyUI/models/diffusion_models/ |
Recomendação de Modelo de Vídeo:
fp16
> bf16
> fp8_scaled
> fp8_e4m3fn
。O ComfyUI fornece fluxos de trabalho baseados em JSON. Você pode encontrar esses arquivos JSON nos exemplos oficiais do ComfyUI ou na documentação. Aqui estão demonstrações em GIF de alguns fluxos de trabalho:
Este fluxo de trabalho pode ser usado com os modelos 1.3B ou 14B. Por exemplo, use:
wan2.1_t2v_1.3B_fp16.safetensors
(Coloque em ComfyUI/models/diffusion_models/
)Saída: 480p / 720p (depende do modelo e configurações selecionadas)
Tempo de execução: Gerar um vídeo de 5 segundos em 480p com uma RTX 4090 leva cerca de 4 minutos.
Exemplo de Fluxo de Trabalho (1.3B 480p):
Exemplo de Fluxo de Trabalho (14B 720p):
Arquivo de Fluxo de Trabalho JSON:text_to_video_wan.json
Este fluxo de trabalho requer os seguintes arquivos:
wan2.1_i2v_480p_14B_fp16.safetensors
(Coloque em ComfyUI/models/diffusion_models/
)wan2.1_i2v_720p_14B_fp16.safetensors
(Coloque em ComfyUI/models/diffusion_models/
)clip_vision_h.safetensors
(Coloque em ComfyUI/models/clip_vision/
)Saída: 480p (exemplo padrão: 33 quadros @ 512x512) ou 720p (se a VRAM e o hardware permitirem).
Exemplo de Fluxo de Trabalho (14B 480p):
Exemplo de Fluxo de Trabalho (14B 720p):
Arquivo de Fluxo de Trabalho JSON:image_to_video_wan_example.json
umt5_xxl_fp8_e4m3fn_scaled.safetensors
)。umt5_xxl_fp8_e4m3fn_scaled.safetensors
, você precisa de cerca de 40GB de VRAM.