ComfyUI 現已支援 Wan2.1

🧠 什麼是 Wan2.1？

Wan2.1 是阿里巴巴開源的一個強大的影片生成模型系列。

該系列包括：

檔案描述	檔案名稱 (點擊下載)	目標資料夾
文字編碼器	`umt5_xxl_fp8_e4m3fn_scaled.safetensors`	`ComfyUI/models/text_encoders/`
VAE	`wan_2.1_vae.safetensors`	`ComfyUI/models/vae/`
CLIP Vision (用於圖像到影片)	`clip_vision_h.safetensors`	`ComfyUI/models/clip_vision/`
影片模型 (擴散模型)	從此目錄選擇	`ComfyUI/models/diffusion_models/`

影片模型推薦：

ComfyUI 提供基於 JSON 的工作流程。您可以從 ComfyUI 官方範例或文件中找到這些 JSON 檔案。以下是一些工作流程的 GIF 展示：

此工作流程可與 1.3B 或 14B 模型配合使用。例如，使用：

輸出： 480p / 720p (取決於所選模型和設定)

執行時長：使用 RTX 4090 生成 5 秒 480p 影片約需 4 分鐘。

工作流程範例 (1.3B 480p):

工作流程範例 (14B 720p):

JSON 工作流程檔案：text_to_video_wan.json

此工作流程需要以下檔案：

模型檔案 (480p)：wan2.1_i2v_480p_14B_fp16.safetensors (放入 ComfyUI/models/diffusion_models/)
模型檔案 (720p, 可選)：wan2.1_i2v_720p_14B_fp16.safetensors (放入 ComfyUI/models/diffusion_models/)
CLIP Vision：clip_vision_h.safetensors (放入 ComfyUI/models/clip_vision/)

輸出： 480p (預設範例：33 影格 @ 512x512) 或 720p (如果顯示記憶體和硬體允許)。

工作流程範例 (14B 480p):

工作流程範例 (14B 720p):

文字編碼器：必需 (umt5_xxl_fp8_e4m3fn_scaled.safetensors)。
顯示記憶體需求：運行具有 umt5_xxl_fp8_e4m3fn_scaled.safetensors 的 480p/720p 圖像到影片模型 (如 14B I2V)，您需要約 40GB 顯示記憶體。
1.3B T2V 模型顯示記憶體：1.3B 文字到影片模型大約需要 15GB 顯示記憶體。
節省顯示記憶體：範例通常使用 16 位元 (fp16) 檔案，但如果您顯示記憶體不足，可以改用 fp8 版本的檔案。
720p 模型：720p 模型效果很好，但需要更高的硬體設定和耐心來運行。