ComfyUI 現已支援 Wan2.1

🧠 什麼是 Wan2.1?

Wan2.1 是阿里巴巴開源的一個強大的影片生成模型系列。

該系列包括:

模型類型解析度顯示記憶體 (約)
文字到影片 14B (T2V)480P / 720P~40GB
文字到影片 1.3B (T2V)480P~8–15GB
圖像到影片 14B (I2V)480P / 720P~40GB
視覺文字生成多語言 (中英)不定

🔧 主要特性

  • 消費級可用:T2V 1.3B 模型可在顯示記憶體約 8.19 GB 的 GPU 上運行。
  • 多任務支援:支援 T2V (文字到影片)、I2V (圖像到影片)、V2V (影片到影片)、T2I (文字到圖像)、V2A (影片到音訊)。
  • 高效率:強大的 Wan-VAE 可處理具有時間一致性的 1080p 影片。
  • 語言支援:首個支援生成中英文本的模型。

📂 設定指南

  1. 將 ComfyUI 更新到最新版本。
  2. 下載所需檔案並將它們放置在指定的 ComfyUI 子目錄中:
檔案描述檔案名稱 (點擊下載)目標資料夾
文字編碼器umt5_xxl_fp8_e4m3fn_scaled.safetensorsComfyUI/models/text_encoders/
VAEwan_2.1_vae.safetensorsComfyUI/models/vae/
CLIP Vision (用於圖像到影片)clip_vision_h.safetensorsComfyUI/models/clip_vision/
影片模型 (擴散模型)此目錄 選擇ComfyUI/models/diffusion_models/

影片模型推薦:

  • 為獲得最佳品質,推薦使用 fp16 版本。
  • 品質排序 (從高到低):fp16 > bf16 > fp8_scaled > fp8_e4m3fn
  • 如果顯示記憶體不足,可以考慮使用 fp8 版本。

📜 範例工作流程

ComfyUI 提供基於 JSON 的工作流程。您可以從 ComfyUI 官方範例或文件中找到這些 JSON 檔案。以下是一些工作流程的 GIF 展示:

文字到影片 (Text to Video)

此工作流程可與 1.3B 或 14B 模型配合使用。例如,使用:

輸出: 480p / 720p (取決於所選模型和設定)

執行時長: 使用 RTX 4090 生成 5 秒 480p 影片約需 4 分鐘。

工作流程範例 (1.3B 480p):

Text to Video 1.3B 480P Workflow Example

工作流程範例 (14B 720p):

Text to Video 14B 720P Workflow Example

JSON 工作流程檔案:text_to_video_wan.json

圖像到影片 (Image to Video)

此工作流程需要以下檔案:

輸出: 480p (預設範例:33 影格 @ 512x512) 或 720p (如果顯示記憶體和硬體允許)。

工作流程範例 (14B 480p):

Image to Video 14B 480P Workflow Example

工作流程範例 (14B 720p):

Image to Video 14B 720P Workflow Example

JSON 工作流程檔案:image_to_video_wan_example.json

📝 注意事項

  • 文字編碼器:必需 (umt5_xxl_fp8_e4m3fn_scaled.safetensors)。
  • 顯示記憶體需求:運行具有 umt5_xxl_fp8_e4m3fn_scaled.safetensors 的 480p/720p 圖像到影片模型 (如 14B I2V),您需要約 40GB 顯示記憶體。
  • 1.3B T2V 模型顯示記憶體:1.3B 文字到影片模型大約需要 15GB 顯示記憶體。
  • 節省顯示記憶體:範例通常使用 16 位元 (fp16) 檔案,但如果您顯示記憶體不足,可以改用 fp8 版本的檔案。
  • 720p 模型:720p 模型效果很好,但需要更高的硬體設定和耐心來運行。