Wan2.1は、アリババが提供するオープンソースの強力なビデオ生成モデルシリーズです。
このシリーズには以下が含まれます:
モデルタイプ | 解像度 | VRAM(約) |
---|---|---|
テキストからビデオへ 14B (T2V) | 480P / 720P | ~40GB |
テキストからビデオへ 1.3B (T2V) | 480P | ~8–15GB |
画像からビデオへ 14B (I2V) | 480P / 720P | ~40GB |
ビジュアルテキスト生成 | 多言語(中国語/英語) | 可変 |
ファイルの説明 | ファイル名(クリックしてダウンロード) | ターゲットフォルダ |
---|---|---|
テキストエンコーダー | umt5_xxl_fp8_e4m3fn_scaled.safetensors | ComfyUI/models/text_encoders/ |
VAE | wan_2.1_vae.safetensors | ComfyUI/models/vae/ |
CLIP Vision(画像からビデオへ用) | clip_vision_h.safetensors | ComfyUI/models/clip_vision/ |
ビデオモデル(拡散モデル) | 選択元: このディレクトリ table2_row4_col2_suffix | ComfyUI/models/diffusion_models/ |
ビデオモデルの推奨:
fp16
> bf16
> fp8_scaled
> fp8_e4m3fn
。ComfyUIはJSONベースのワークフローを提供します。これらのJSONファイルは、ComfyUIの公式サンプルまたはドキュメントにあります。以下は、いくつかのワークフローのGIFデモンストレーションです:
このワークフローは、1.3Bまたは14Bモデルで使用できます。例えば、次を使用します:
wan2.1_t2v_1.3B_fp16.safetensors
(ComfyUI/models/diffusion_models/
に配置)出力: 480p / 720p(選択したモデルと設定によって異なります)
ランタイム: RTX 4090で5秒の480pビデオを生成するには、約4分かかります。
ワークフロー例(1.3B 480p):
ワークフロー例(14B 720p):
JSONワークフローファイル:text_to_video_wan.json
このワークフローには、次のファイルが必要です:
wan2.1_i2v_480p_14B_fp16.safetensors
(ComfyUI/models/diffusion_models/
に配置)wan2.1_i2v_720p_14B_fp16.safetensors
(ComfyUI/models/diffusion_models/
に配置)clip_vision_h.safetensors
(ComfyUI/models/clip_vision/
に配置)出力: 480p(デフォルト例:33フレーム @ 512x512)または720p(VRAMとハードウェアが許せば)。
ワークフロー例(14B 480p):
ワークフロー例(14B 720p):
JSONワークフローファイル:image_to_video_wan_example.json
umt5_xxl_fp8_e4m3fn_scaled.safetensors
)。umt5_xxl_fp8_e4m3fn_scaled.safetensors
を使用して480p/720p画像からビデオへのモデル(例:14B I2V)を実行するには、約40GBのVRAMが必要です。