ComfyUI 现已支持 Wan2.1

🧠 什么是 Wan2.1?

Wan2.1 是阿里巴巴开源的一个强大的视频生成模型系列。

该系列包括:

模型类型分辨率显存 (约)
文本到视频 14B (T2V)480P / 720P~40GB
文本到视频 1.3B (T2V)480P~8–15GB
图像到视频 14B (I2V)480P / 720P~40GB
视觉文本生成多语言 (中英)不定

🔧 主要特性

  • 消费级可用:T2V 1.3B 模型可在显存约 8.19 GB 的 GPU 上运行。
  • 多任务支持:支持 T2V (文本到视频)、I2V (图像到视频)、V2V (视频到视频)、T2I (文本到图像)、V2A (视频到音频)。
  • 高效率:强大的 Wan-VAE 可处理具有时间一致性的 1080p 视频。
  • 语言支持:首个支持生成中英文本的模型。

📂 设置指南

  1. 将 ComfyUI 更新到最新版本。
  2. 下载所需文件并将它们放置在指定的 ComfyUI 子目录中:
文件描述文件名 (点击下载)目标文件夹
文本编码器umt5_xxl_fp8_e4m3fn_scaled.safetensorsComfyUI/models/text_encoders/
VAEwan_2.1_vae.safetensorsComfyUI/models/vae/
CLIP Vision (用于图像到视频)clip_vision_h.safetensorsComfyUI/models/clip_vision/
视频模型 (扩散模型)此目录 选择ComfyUI/models/diffusion_models/

视频模型推荐:

  • 为获得最佳质量,推荐使用 fp16 版本。
  • 质量排序 (从高到低):fp16 > bf16 > fp8_scaled > fp8_e4m3fn
  • 如果显存不足,可以考虑使用 fp8 版本。

📜 示例工作流程

ComfyUI 提供基于 JSON 的工作流程。您可以从 ComfyUI 官方示例或文档中找到这些 JSON 文件。以下是一些工作流程的 GIF 演示:

文本到视频 (Text to Video)

此工作流程可与 1.3B 或 14B 模型配合使用。例如,使用:

输出: 480p / 720p (取决于所选模型和设置)

运行时长: 使用 RTX 4090 生成 5 秒 480p 视频约需 4 分钟。

工作流示例 (1.3B 480p):

Text to Video 1.3B 480P Workflow Example

工作流示例 (14B 720p):

Text to Video 14B 720P Workflow Example

JSON 工作流文件:text_to_video_wan.json

图像到视频 (Image to Video)

此工作流程需要以下文件:

输出: 480p (默认示例:33 帧 @ 512x512) 或 720p (如果显存和硬件允许)。

工作流示例 (14B 480p):

Image to Video 14B 480P Workflow Example

工作流示例 (14B 720p):

Image to Video 14B 720P Workflow Example

JSON 工作流文件:image_to_video_wan_example.json

📝 注意事项

  • 文本编码器:必需 (umt5_xxl_fp8_e4m3fn_scaled.safetensors)。
  • 显存需求:运行具有 umt5_xxl_fp8_e4m3fn_scaled.safetensors 的 480p/720p 图像到视频模型 (如 14B I2V),您需要约 40GB 显存。
  • 1.3B T2V 模型显存:1.3B 文本到视频模型大约需要 15GB 显存。
  • 节省显存:示例通常使用 16 位 (fp16) 文件,但如果您显存不足,可以改用 fp8 版本的文件。
  • 720p 模型:720p 模型效果很好,但需要更高的硬件配置和耐心来运行。