Wan2.1 是阿里巴巴开源的一个强大的视频生成模型系列。
该系列包括:
模型类型 | 分辨率 | 显存 (约) |
---|---|---|
文本到视频 14B (T2V) | 480P / 720P | ~40GB |
文本到视频 1.3B (T2V) | 480P | ~8–15GB |
图像到视频 14B (I2V) | 480P / 720P | ~40GB |
视觉文本生成 | 多语言 (中英) | 不定 |
文件描述 | 文件名 (点击下载) | 目标文件夹 |
---|---|---|
文本编码器 | umt5_xxl_fp8_e4m3fn_scaled.safetensors | ComfyUI/models/text_encoders/ |
VAE | wan_2.1_vae.safetensors | ComfyUI/models/vae/ |
CLIP Vision (用于图像到视频) | clip_vision_h.safetensors | ComfyUI/models/clip_vision/ |
视频模型 (扩散模型) | 从 此目录 选择 | ComfyUI/models/diffusion_models/ |
视频模型推荐:
fp16
> bf16
> fp8_scaled
> fp8_e4m3fn
。ComfyUI 提供基于 JSON 的工作流程。您可以从 ComfyUI 官方示例或文档中找到这些 JSON 文件。以下是一些工作流程的 GIF 演示:
此工作流程可与 1.3B 或 14B 模型配合使用。例如,使用:
wan2.1_t2v_1.3B_fp16.safetensors
(放入 ComfyUI/models/diffusion_models/
)输出: 480p / 720p (取决于所选模型和设置)
运行时长: 使用 RTX 4090 生成 5 秒 480p 视频约需 4 分钟。
工作流示例 (1.3B 480p):
工作流示例 (14B 720p):
JSON 工作流文件:text_to_video_wan.json
此工作流程需要以下文件:
wan2.1_i2v_480p_14B_fp16.safetensors
(放入 ComfyUI/models/diffusion_models/
)wan2.1_i2v_720p_14B_fp16.safetensors
(放入 ComfyUI/models/diffusion_models/
)clip_vision_h.safetensors
(放入 ComfyUI/models/clip_vision/
)输出: 480p (默认示例:33 帧 @ 512x512) 或 720p (如果显存和硬件允许)。
工作流示例 (14B 480p):
工作流示例 (14B 720p):
JSON 工作流文件:image_to_video_wan_example.json
umt5_xxl_fp8_e4m3fn_scaled.safetensors
)。umt5_xxl_fp8_e4m3fn_scaled.safetensors
的 480p/720p 图像到视频模型 (如 14B I2V),您需要约 40GB 显存。