ComfyUIがWan2.1をサポート開始

🧠 Wan2.1とは?

Wan2.1は、アリババが提供するオープンソースの強力なビデオ生成モデルシリーズです。

このシリーズには以下が含まれます:

モデルタイプ解像度VRAM(約)
テキストからビデオへ 14B (T2V)480P / 720P~40GB
テキストからビデオへ 1.3B (T2V)480P~8–15GB
画像からビデオへ 14B (I2V)480P / 720P~40GB
ビジュアルテキスト生成多言語(中国語/英語)可変

🔧 主な特徴

  • コンシューマーグレード対応:T2V 1.3Bモデルは、約8.19 GBのVRAMを搭載したGPUで実行できます。
  • マルチタスクサポート:T2V(テキストからビデオへ)、I2V(画像からビデオへ)、V2V(ビデオからビデオへ)、T2I(テキストから画像へ)、V2A(ビデオからオーディオへ)をサポートします。
  • 高効率:強力なWan-VAEは、時間的一貫性を備えた1080pビデオを処理できます。
  • 言語サポート:中国語と英語の両方でテキスト生成をサポートする最初のモデルです。

📂 セットアップガイド

  1. ComfyUIを最新バージョンに更新します。
  2. 必要なファイルをダウンロードし、指定されたComfyUIサブディレクトリに配置します:
ファイルの説明ファイル名(クリックしてダウンロード)ターゲットフォルダ
テキストエンコーダーumt5_xxl_fp8_e4m3fn_scaled.safetensorsComfyUI/models/text_encoders/
VAEwan_2.1_vae.safetensorsComfyUI/models/vae/
CLIP Vision(画像からビデオへ用)clip_vision_h.safetensorsComfyUI/models/clip_vision/
ビデオモデル(拡散モデル)選択元: このディレクトリ table2_row4_col2_suffixComfyUI/models/diffusion_models/

ビデオモデルの推奨:

  • 最高の品質を得るには、fp16バージョンをお勧めします。
  • 品質ランキング(高から低):fp16 > bf16 > fp8_scaled > fp8_e4m3fn
  • VRAMが不足している場合は、fp8バージョンの使用を検討してください。

📜 サンプルワークフロー

ComfyUIはJSONベースのワークフローを提供します。これらのJSONファイルは、ComfyUIの公式サンプルまたはドキュメントにあります。以下は、いくつかのワークフローのGIFデモンストレーションです:

テキストからビデオへ (Text to Video)

このワークフローは、1.3Bまたは14Bモデルで使用できます。例えば、次を使用します:

出力: 480p / 720p(選択したモデルと設定によって異なります)

ランタイム: RTX 4090で5秒の480pビデオを生成するには、約4分かかります。

ワークフロー例(1.3B 480p):

Text to Video 1.3B 480P Workflow Example

ワークフロー例(14B 720p):

Text to Video 14B 720P Workflow Example

JSONワークフローファイル:text_to_video_wan.json

画像からビデオへ (Image to Video)

このワークフローには、次のファイルが必要です:

出力: 480p(デフォルト例:33フレーム @ 512x512)または720p(VRAMとハードウェアが許せば)。

ワークフロー例(14B 480p):

Image to Video 14B 480P Workflow Example

ワークフロー例(14B 720p):

Image to Video 14B 720P Workflow Example

JSONワークフローファイル:image_to_video_wan_example.json

📝 注意点

  • テキストエンコーダー:必須 (umt5_xxl_fp8_e4m3fn_scaled.safetensors)。
  • VRAM要件:umt5_xxl_fp8_e4m3fn_scaled.safetensorsを使用して480p/720p画像からビデオへのモデル(例:14B I2V)を実行するには、約40GBのVRAMが必要です。
  • 1.3B T2VモデルVRAM:1.3Bテキストからビデオへのモデルには、約15GBのVRAMが必要です。
  • VRAMの節約:例では通常16ビット(fp16)ファイルを使用しますが、VRAMが少ない場合は代わりにfp8バージョンを使用できます。
  • 720pモデル:720pモデルはうまく機能しますが、より高いハードウェア仕様と実行するための忍耐が必要です。