Tongyi Wanxiang AIビデオ生成

Wan 2.5 Preview

多感覚ストーリーテリングの革命。ネイティブオーディオと映画品質のビジュアルコントロールを統合し、AIビデオ制作の境界を再定義します。

能力の世代的飛躍

Wan 2.5は、以前のモデルのエッセンスを統合し、主要な側面で質的なブレークスルーを達成しています。

音声と映像の同期処理を初めて実装し、ネイティブナレーション、正確なリップシンク、没入感のある環境音響効果を提供します。

最大4K解像度の出力をサポートし、プロの制作基準を満たす写実的な顔、肌の質感、衣服のディテールを表現します。

パン、ズーム、フォーカス切り替えなどの高度なカメラコントロールを提供し、クリエイターがシーンを単に「説明する」だけでなく、「監督する」ことを可能にします。

最大10秒以上のビデオクリップの生成をサポートし、完全な物語のリズムや短い広告を形成するのに十分です。

Wan 2.5は巨人の肩の上に立ち、技術的な反復と戦略的進化の必然的な結果を表しています。

オープンソース基盤

コミュニティのリーダーシップを確立し、高性能なビデオ生成を普及させました。

MoEアーキテクチャ革命

混合エキスパートアーキテクチャを導入し、スケーラブルなモデルパフォーマンスを実現しました。

能力の統合

オーディオ、アニメーション、高度なコントロールを統一されたモデルに統合します。

商用API

ハイエンドのプロフェッショナル市場に移行し、クローズドソースのAPIサービスを提供します。

Wan 2.5のリリースは、生成ビデオ市場が3層構造の新時代に入ることを示しています。

第1層：ハイエンドのクローズドソース

トップラボ（OpenAI, Google, Alibaba）がAPIアクセスを通じて提供するフラッグシップモデルで、最高の品質と最強のコントロールを追求します。

代表例：Sora, Veo, Wan 2.5

第2層：レガシーオープンソース

高品質だが一世代遅れのオープンソースモデルで、コミュニティの実験、学習、非商用プロジェクトの中核として機能します。

代表例：Wan 2.2, Stable Video Diffusion

第3層：独立したオープンソース

コミュニティ主導の小規模または特化型モデルで、独自の機能を提供したり、特定のハードウェアに最適化されたりしており、エコシステムの多様性の源となっています。

代表例：Community Models

以下の表は、コアアーキテクチャ、主要なイノベーション、リリースモデルを比較することで、Wanモデルシリーズがオープンなアクセシビリティからプロフェッショナルな商業化へと至る完全な進化の道筋を直感的に示しています。

コアアーキテクチャ	Wan 2.1	Wan 2.2	Wan 2.5 Preview (発表済み/推測)
コアアーキテクチャ	標準 Diffusion Transformer	混合エキスパート (MoE) (高/低ノイズ)	進化したMoEアーキテクチャ
モデル規模	1.3Bおよび14Bパラメータ	14Bアクティブ/27B合計パラメータ	おそらく>30B合計パラメータ
主要なイノベーション	オープンソースのアクセシビリティと効率	MoEがスケーラブルなパフォーマンスを実現	統合されたマルチモーダル（オーディオ-ビデオ）
最大解像度	720p（不安定）、480p（推奨）	720p / 1080p	4K（主張）、1080p（APIで確認済み）
最大持続時間	約3-5秒	約5秒	10秒以上
コアモダリティ	T2V, I2V, ビデオ編集	T2V, I2V, および専用のS2VとAnimateモデル	統一されたT2V, I2V, オーディオ-ビデオ同期, 高度なアニメーション
映画的コントロール	基本	「映画的美的コントロール」	精密なカメラ、照明、シーンコントロール
リリースモデル	オープンソース (Apache 2.0)	オープンソース (Apache 2.0)	APIのみ (クローズドソース)