Diffusion Transformer (DiT)をベースに、Flow MatchingとMixture-of-Experts (MoE)を統合した次世代動画生成モデル。
Wan2.2はエンドツーエンドの動画生成システムです。従来のU-Netを捨て、DiTアーキテクチャを採用して長シーケンスの動画トークンを処理します。パラメータ数は27Bに達しますが、MoEの疎な活性化メカニズムにより、推論時のVRAM使用量は14Bモデル相当です。
テキスト、フレーム、マスクを統一的にエンコード。
Wan-VAEは4×8×8の圧縮率を実現し、情報圧縮倍率は256倍に達します。
umT5エンコーダーを採用し、中英バイリンガルプロンプトをネイティブサポート。
動画データには高い冗長性が含まれています。Wan-VAEは3D畳み込みにより、空間と時間の次元で同時に圧縮を実現しました。
->
Wan2.2はフローマッチング(Flow Matching)を採用しており、その生成軌跡は直線(Optimal Transport Path)です。従来の拡散モデルの「ランダムウォーク」パスに比べ、効率が高く、トレーニングが安定しています。
モデルは速度ベクトルを直接予測します。
従来の拡散モデル(DDPM)は確率微分方程式(SDE)をシミュレートし、パスは曲がっています。Flow Matchingはノイズからデータへの決定論的常微分方程式(ODE)を構築します。直線パスにより、大きなステップサイズ(20-50ステップ)が可能です。
Wan2.2のMoEは語彙を増やすためではなく、ノイズ除去プロセスの時間次元に特化しています。動画生成の初期(構図)と後期(詳細)では、全く異なる能力が必要です。
アクティブモデル
高ノイズエキスパート
フォーカスタスク
全体レイアウトと構造
全体レイアウトと構造
| コンポーネント | 高ノイズエキスパート | 低ノイズエキスパート |
|---|---|---|
| 活性化条件 | 低 SNR (初期) | 高 SNR (後期) |
| 主な役割 | 大きな動き、シーンレイアウト | テクスチャ、光と影の詳細 |
| 学習戦略 | ゼロから学習 | Wan2.1に基づいて微調整 |
以下のコードは、Hugging Face `diffusers` ライブラリを使用してWan2.2モデルをロードし、動画を生成する方法を示しています。MoEの重み切り替えは内部で自動的に処理されます。
import torch
from diffusers import WanPipeline
from diffusers.utils import export_to_video
# 1. モデルをロード (MoE重みを自動ロード)
# 以下のコードは、Hugging Face `diffusers` ライブラリを使用してWan2.2モデルをロードし、動画を生成する方法を示しています。MoEの重み切り替えは内部で自動的に処理されます。
pipe = WanPipeline.from_pretrained(
"Wan-AI/Wan2.2-T2V-A14B-Diffusers",
torch_dtype=torch.bfloat16
)
# 2. VRAM節約のためCPUオフロードを有効化
pipe.enable_model_cpu_offload()
# 3. 動画生成 (Flow Matchingは約50ステップ)
prompt = "A cinematic drone shot of a futuristic city with flying cars, neon lights, 4k, high quality."
output = pipe(
prompt=prompt,
height=720,
width=1280,
num_inference_steps=50,
guidance_scale=5.0
).frames[0]
# 4. 結果を保存
export_to_video(output, "wan_futuristic_city.mp4")