Wan2.1 是阿里巴巴開源的一個強大的影片生成模型系列。
該系列包括:
模型類型 | 解析度 | 顯示記憶體 (約) |
---|---|---|
文字到影片 14B (T2V) | 480P / 720P | ~40GB |
文字到影片 1.3B (T2V) | 480P | ~8–15GB |
圖像到影片 14B (I2V) | 480P / 720P | ~40GB |
視覺文字生成 | 多語言 (中英) | 不定 |
檔案描述 | 檔案名稱 (點擊下載) | 目標資料夾 |
---|---|---|
文字編碼器 | umt5_xxl_fp8_e4m3fn_scaled.safetensors | ComfyUI/models/text_encoders/ |
VAE | wan_2.1_vae.safetensors | ComfyUI/models/vae/ |
CLIP Vision (用於圖像到影片) | clip_vision_h.safetensors | ComfyUI/models/clip_vision/ |
影片模型 (擴散模型) | 從 此目錄 選擇 | ComfyUI/models/diffusion_models/ |
影片模型推薦:
fp16
> bf16
> fp8_scaled
> fp8_e4m3fn
。ComfyUI 提供基於 JSON 的工作流程。您可以從 ComfyUI 官方範例或文件中找到這些 JSON 檔案。以下是一些工作流程的 GIF 展示:
此工作流程可與 1.3B 或 14B 模型配合使用。例如,使用:
wan2.1_t2v_1.3B_fp16.safetensors
(放入 ComfyUI/models/diffusion_models/
)輸出: 480p / 720p (取決於所選模型和設定)
執行時長: 使用 RTX 4090 生成 5 秒 480p 影片約需 4 分鐘。
工作流程範例 (1.3B 480p):
工作流程範例 (14B 720p):
JSON 工作流程檔案:text_to_video_wan.json
此工作流程需要以下檔案:
wan2.1_i2v_480p_14B_fp16.safetensors
(放入 ComfyUI/models/diffusion_models/
)wan2.1_i2v_720p_14B_fp16.safetensors
(放入 ComfyUI/models/diffusion_models/
)clip_vision_h.safetensors
(放入 ComfyUI/models/clip_vision/
)輸出: 480p (預設範例:33 影格 @ 512x512) 或 720p (如果顯示記憶體和硬體允許)。
工作流程範例 (14B 480p):
工作流程範例 (14B 720p):
JSON 工作流程檔案:image_to_video_wan_example.json
umt5_xxl_fp8_e4m3fn_scaled.safetensors
)。umt5_xxl_fp8_e4m3fn_scaled.safetensors
的 480p/720p 圖像到影片模型 (如 14B I2V),您需要約 40GB 顯示記憶體。