ComfyUI 现已支持 Wan2.1

🧠 什么是 Wan2.1？

Wan2.1 是阿里巴巴开源的一个强大的视频生成模型系列。

该系列包括：

文件描述	文件名 (点击下载)	目标文件夹
文本编码器	`umt5_xxl_fp8_e4m3fn_scaled.safetensors`	`ComfyUI/models/text_encoders/`
VAE	`wan_2.1_vae.safetensors`	`ComfyUI/models/vae/`
CLIP Vision (用于图像到视频)	`clip_vision_h.safetensors`	`ComfyUI/models/clip_vision/`
视频模型 (扩散模型)	从此目录选择	`ComfyUI/models/diffusion_models/`

视频模型推荐：

ComfyUI 提供基于 JSON 的工作流程。您可以从 ComfyUI 官方示例或文档中找到这些 JSON 文件。以下是一些工作流程的 GIF 演示：

此工作流程可与 1.3B 或 14B 模型配合使用。例如，使用：

输出： 480p / 720p (取决于所选模型和设置)

运行时长：使用 RTX 4090 生成 5 秒 480p 视频约需 4 分钟。

工作流示例 (1.3B 480p):

工作流示例 (14B 720p):

JSON 工作流文件：text_to_video_wan.json

此工作流程需要以下文件：

模型文件 (480p)：wan2.1_i2v_480p_14B_fp16.safetensors (放入 ComfyUI/models/diffusion_models/)
模型文件 (720p, 可选)：wan2.1_i2v_720p_14B_fp16.safetensors (放入 ComfyUI/models/diffusion_models/)
CLIP Vision：clip_vision_h.safetensors (放入 ComfyUI/models/clip_vision/)

输出： 480p (默认示例：33 帧 @ 512x512) 或 720p (如果显存和硬件允许)。

工作流示例 (14B 480p):

工作流示例 (14B 720p):

文本编码器：必需 (umt5_xxl_fp8_e4m3fn_scaled.safetensors)。
显存需求：运行具有 umt5_xxl_fp8_e4m3fn_scaled.safetensors 的 480p/720p 图像到视频模型 (如 14B I2V)，您需要约 40GB 显存。
1.3B T2V 模型显存：1.3B 文本到视频模型大约需要 15GB 显存。
节省显存：示例通常使用 16 位 (fp16) 文件，但如果您显存不足，可以改用 fp8 版本的文件。
720p 模型：720p 模型效果很好，但需要更高的硬件配置和耐心来运行。