Tongyi Wanxiang AIビデオ生成

Wan 2.5 Preview

多感覚ストーリーテリングの革命。ネイティブオーディオと映画品質のビジュアルコントロールを統合し、AIビデオ制作の境界を再定義します。

能力の世代的飛躍

Wan 2.5は、以前のモデルのエッセンスを統合し、主要な側面で質的なブレークスルーを達成しています。

多感覚ストーリーテリング

音声と映像の同期処理を初めて実装し、ネイティブナレーション、正確なリップシンク、没入感のある環境音響効果を提供します。

映画品質の4K画質

最大4K解像度の出力をサポートし、プロの制作基準を満たす写実的な顔、肌の質感、衣服のディテールを表現します。

精密な映画的コントロール

パン、ズーム、フォーカス切り替えなどの高度なカメラコントロールを提供し、クリエイターがシーンを単に「説明する」だけでなく、「監督する」ことを可能にします。

拡張された物語の時間

最大10秒以上のビデオクリップの生成をサポートし、完全な物語のリズムや短い広告を形成するのに十分です。

進化の道:オープンソースから頂点へ

Wan 2.5は巨人の肩の上に立ち、技術的な反復と戦略的進化の必然的な結果を表しています。

Wan 2.1 / 2.2

オープンソース基盤

コミュニティのリーダーシップを確立し、高性能なビデオ生成を普及させました。


MoEアーキテクチャ革命

混合エキスパートアーキテクチャを導入し、スケーラブルなモデルパフォーマンスを実現しました。

Wan 2.5 Preview

能力の統合

オーディオ、アニメーション、高度なコントロールを統一されたモデルに統合します。


商用API

ハイエンドのプロフェッショナル市場に移行し、クローズドソースのAPIサービスを提供します。

市場構造の再構築

Wan 2.5のリリースは、生成ビデオ市場が3層構造の新時代に入ることを示しています。

第1層:ハイエンドのクローズドソース

業界のベンチマーク

トップラボ(OpenAI, Google, Alibaba)がAPIアクセスを通じて提供するフラッグシップモデルで、最高の品質と最強のコントロールを追求します。

代表例:Sora, Veo, Wan 2.5

第2層:レガシーオープンソース

コミュニティの中核

高品質だが一世代遅れのオープンソースモデルで、コミュニティの実験、学習、非商用プロジェクトの中核として機能します。

代表例:Wan 2.2, Stable Video Diffusion

第3層:独立したオープンソース

イノベーションの先駆者

コミュニティ主導の小規模または特化型モデルで、独自の機能を提供したり、特定のハードウェアに最適化されたりしており、エコシステムの多様性の源となっています。

代表例:Community Models

Wanモデルシリーズの機能とアーキテクチャの比較

以下の表は、コアアーキテクチャ、主要なイノベーション、リリースモデルを比較することで、Wanモデルシリーズがオープンなアクセシビリティからプロフェッショナルな商業化へと至る完全な進化の道筋を直感的に示しています。

コアアーキテクチャWan 2.1Wan 2.2Wan 2.5 Preview (発表済み/推測)
コアアーキテクチャ標準 Diffusion Transformer混合エキスパート (MoE) (高/低ノイズ)進化したMoEアーキテクチャ
モデル規模1.3Bおよび14Bパラメータ14Bアクティブ/27B合計パラメータおそらく>30B合計パラメータ
主要なイノベーションオープンソースのアクセシビリティと効率MoEがスケーラブルなパフォーマンスを実現統合されたマルチモーダル(オーディオ-ビデオ)
最大解像度720p(不安定)、480p(推奨)720p / 1080p4K(主張)、1080p(APIで確認済み)
最大持続時間約3-5秒約5秒10秒以上
コアモダリティT2V, I2V, ビデオ編集T2V, I2V, および専用のS2VとAnimateモデル統一されたT2V, I2V, オーディオ-ビデオ同期, 高度なアニメーション
映画的コントロール基本「映画的美的コントロール」精密なカメラ、照明、シーンコントロール
リリースモデルオープンソース (Apache 2.0)オープンソース (Apache 2.0)APIのみ (クローズドソース)