ComfyUIがWan2.1をサポート開始

🧠 Wan2.1とは？

Wan2.1は、アリババが提供するオープンソースの強力なビデオ生成モデルシリーズです。

このシリーズには以下が含まれます：

コンシューマーグレード対応：T2V 1.3Bモデルは、約8.19 GBのVRAMを搭載したGPUで実行できます。
マルチタスクサポート：T2V（テキストからビデオへ）、I2V（画像からビデオへ）、V2V（ビデオからビデオへ）、T2I（テキストから画像へ）、V2A（ビデオからオーディオへ）をサポートします。
高効率：強力なWan-VAEは、時間的一貫性を備えた1080pビデオを処理できます。
言語サポート：中国語と英語の両方でテキスト生成をサポートする最初のモデルです。

ファイルの説明	ファイル名（クリックしてダウンロード）	ターゲットフォルダ
テキストエンコーダー	`umt5_xxl_fp8_e4m3fn_scaled.safetensors`	`ComfyUI/models/text_encoders/`
VAE	`wan_2.1_vae.safetensors`	`ComfyUI/models/vae/`
CLIP Vision（画像からビデオへ用）	`clip_vision_h.safetensors`	`ComfyUI/models/clip_vision/`
ビデオモデル（拡散モデル）	選択元：このディレクトリ table2_row4_col2_suffix	`ComfyUI/models/diffusion_models/`

ビデオモデルの推奨：

ComfyUIはJSONベースのワークフローを提供します。これらのJSONファイルは、ComfyUIの公式サンプルまたはドキュメントにあります。以下は、いくつかのワークフローのGIFデモンストレーションです：

このワークフローは、1.3Bまたは14Bモデルで使用できます。例えば、次を使用します：

モデルファイル：wan2.1_t2v_1.3B_fp16.safetensors (ComfyUI/models/diffusion_models/に配置)

出力： 480p / 720p（選択したモデルと設定によって異なります）

ランタイム： RTX 4090で5秒の480pビデオを生成するには、約4分かかります。

ワークフロー例（1.3B 480p）：

ワークフロー例（14B 720p）：

JSONワークフローファイル：text_to_video_wan.json

このワークフローには、次のファイルが必要です：

モデルファイル（480p）：wan2.1_i2v_480p_14B_fp16.safetensors (ComfyUI/models/diffusion_models/に配置)
モデルファイル（720p、オプション）：wan2.1_i2v_720p_14B_fp16.safetensors (ComfyUI/models/diffusion_models/に配置)
CLIP Vision：clip_vision_h.safetensors (ComfyUI/models/clip_vision/に配置)

出力： 480p（デフォルト例：33フレーム @ 512x512）または720p（VRAMとハードウェアが許せば）。

ワークフロー例（14B 480p）：

ワークフロー例（14B 720p）：

JSONワークフローファイル：image_to_video_wan_example.json

テキストエンコーダー：必須 (umt5_xxl_fp8_e4m3fn_scaled.safetensors)。
VRAM要件：umt5_xxl_fp8_e4m3fn_scaled.safetensorsを使用して480p/720p画像からビデオへのモデル（例：14B I2V）を実行するには、約40GBのVRAMが必要です。
1.3B T2VモデルVRAM：1.3Bテキストからビデオへのモデルには、約15GBのVRAMが必要です。
VRAMの節約：例では通常16ビット（fp16）ファイルを使用しますが、VRAMが少ない場合は代わりにfp8バージョンを使用できます。
720pモデル：720pモデルはうまく機能しますが、より高いハードウェア仕様と実行するための忍耐が必要です。