VBenchなどの権威あるベンチマークで優れた成績(総合スコア84.7%+)を収めており、特に複雑なダイナミクス、空間関係、複数オブジェクトの相互作用の処理に長けています。
軽量な1.3Bモデルは、約8GBのVRAMしか必要とせず、主流のコンシューマー向けGPUでスムーズに動作し、導入の敷居を大幅に下げます。
T2V/I2Vに限定されず、動画編集、修復、拡張、音声生成(V2A)など、多様なクリエイティブニーズもサポートします。
動画内のバイリンガル(中国語/英語)テキストのクリアな生成を先駆けて実現し、様々なフォント効果をサポートし、応用範囲を大幅に拡大します。
新しい3D時空間VAEは、エンコード/デコードの効率と品質を大幅に向上させ、高解像度の長時間動画処理をサポートし、速度とVRAMのバランスを取ります。
Apache 2.0ライセンスに従い、モデルコードとウェイトを完全に公開し、コミュニティを積極的に受け入れ、技術とアプリケーション展開を共同で推進します。
大きな体の動き、オブジェクトの回転、シーンの変化、カメラの動きを含むリアルな動画ストリームを正確に生成します。
例:雪景色の中、スノーモービルがスピードを出し、雪を蹴り上げるダイナミックなショットをシミュレートします。
現実世界の物理法則を正確にシミュレートし、直感的なオブジェクトの相互作用と動的効果を生成します。
例:パンダが街の通りで難しいスケートボードのトリック(ジャンプ、スピン、グラインドを含む)を披露し、滑らかで自然な動きで絶妙なスキルを見せつけます。
映画に匹敵する視覚品質を提供し、豊かなテクスチャ、リアルな照明、多様なスタイルを持つ動画フレームを生成します。
例:変身するスパイの顔を捉えたクローズアップの映画的ショット。
Wan-Edit技術に基づき、コンテンツの微調整のための多様な動画編集操作をサポートします。
例:動画の主要構造を維持しながら、背景を置き換えたり要素を追加したりします。
動画フレーム内にクリアでダイナミックなバイリンガル(中国語/英語)テキストを直接生成する画期的なサポート。様々なフォントや効果で適用可能。
プロンプト例(水墨画): "赤い新年の紙の背景に、墨が一滴ゆっくりと広がり、ぼやけた自然な文字「福」を形成し、墨の色が濃い色から薄い色へと変化し、東洋の美学を示します。"
例:製品デモ動画にダイナミックなスローガンや注釈を追加します。
視覚情報を生成するだけでなく、コンテンツとリズムに合った効果音や背景音楽(V2A)をインテリジェントにマッチングまたは生成します。
プロンプト例(氷の落下): "クローズアップショット、氷が高さからグラスに落ち、割れる音と液体が揺れる音を立てます..."(一致する効果音を生成)
例:アニメーション短編映画のプロットと雰囲気に合った背景音楽を自動生成します。
Wan 2.1は、迅速な検証から高品質な制作まで、さまざまなニーズに応えるために、異なるパラメータースケールと機能を持つモデルバリアントを提供し、すべてApache 2.0ライセンスの下でオープンソース化されています。
13億パラメータ
テキストからビデオへ(T2V)、480p解像度に焦点を当てています。コンシューマー向けGPUに最適化されており、VRAM要件が低い(約8GB)。
140億パラメータ
テキストからビデオへ(T2V)、優れた品質を提供し、480p/720p解像度をサポートし、独自のバイリンガルテキスト生成機能を備えています。
140億パラメータ
画像からビデオへ(I2V)、画像参照とテキストプロンプトを組み合わせてビデオを生成し、480pと720pの高品質バリアントで利用可能です。
140億パラメータ
最初と最後のフレームからビデオへ(FLF2V)、開始フレームと終了フレーム間の遷移をインテリジェントに合成して滑らかなビデオを生成し、マルチGPUアクセラレーションをサポートします。
🚀 アリババTongyi Labが初の140億パラメータの最初と最後のフレームからビデオへの大規模モデルを発表!完全にオープンソースで、デジタルアーティストに前例のない創造的な効率性と柔軟性を提供します。
豊かなディテールとリアルな物理学を備えた、映画的で高忠実度のビデオコンテンツを生成します。
複雑なオブジェクトの動き、カメラの動き、自然な動的相互作用を正確に捉えて生成します。
ユニークなビデオ内バイリンガルテキスト生成機能は、コンテンツ作成にさらなる可能性を追加します。
高度なWan-VAE技術は、より速い処理速度とより良いリソース利用効率をもたらします。
オープンソースとコンシューマー向けハードウェアサポートの組み合わせにより、誰もが最先端のAIビデオ技術を体験できます。
世界中の開発者からの貢献、最適化、統合の恩恵を受け、継続的なエコシステムの成長を促進します。
Wan 2.1は、主流のDiffusion Transformer(DiT)パラダイムに基づいており、効率的なビデオデータ処理のために革新的な3D時空間変分オートエンコーダ(Wan-VAE)を導入しています。また、Flow Matching技術を採用し、T5エンコーダーを介してテキストプロンプトを理解し、クロスアテンションメカニズムを使用してテキストと視覚情報を統合します。
ハードウェア要件はモデルバージョンによって異なります。1.3B T2Vモデルは非常にコンシューマー向けGPUに優しく、最低約8GBのVRAMしか必要としません。14Bモデル(T2V、I2V、FLF2V)はより強力なハードウェアが必要で、24GB以上のVRAMを持つプロフェッショナルグレードのGPU(A100、RTX 4090など)を推奨し、効率的な推論のためにマルチGPUセットアップが必要になる可能性があります。
Wan 2.1はVBenchなどのベンチマークで優れたパフォーマンスを発揮し、特定の指標(例:運動の滑らかさ、被写体の一貫性)においてSoraなどのクローズドソースモデルよりも優れているか、同等であるとよく考えられています。その主な利点は、オープンソースであること、コンシューマー向けハードウェアサポート(1.3Bモデル)、および独自のバイリンガルテキスト生成にあります。SoraとVeo 2はおそらくクローズドソースであり、特定の美的品質やより長いビデオ生成に焦点を当てている可能性がありますが、Wan 2.1はより高い柔軟性と効率性を提供します。
Wan 2.1は高品質のビデオを生成できますが、すべての生成モデルと同様に、出力品質にはある程度の不安定性があり、時折アーティファクト、歪み、または細部の制御不良(特に複雑なシーンや特定のスタイル、例えば肖像画など)が発生することがあります。その他の制限事項には、大規模モデルの生成速度が比較的遅いこと、ハードウェア要件が高いこと、オープンソースモデルに共通するコンテンツの安全性/倫理的リスク(例:組み込みのウォーターマークの欠如)が含まれます。
公式のGitHubリポジトリでソースコード、モデルウェイト、詳細な使用手順を入手できます。モデルはHugging Face Hub、Diffusers、ComfyUIなどの人気プラットフォームにも統合されており、ユーザーは直接呼び出したり、ローカルにデプロイしたりできます。コミュニティも多くのチュートリアルやツールを提供しています。
Wan 2.1のコードとモデルウェイトはApache 2.0ライセンスの下でオープンソース化されています。これは、ユーザーがライセンス条項(例:著作権表示と免責事項の保持)に従う限り、商用利用を含む使用、変更、配布が自由であることを意味します。