通義萬相 AI 影片生成

Wan 2.5 Preview

一場多感官敘事的革命。整合原生音訊與影院級視覺控制,重新定義 AI 影片創作的邊界。

能力的代際飛躍

Wan 2.5 整合了前代模型的精華,並在關鍵維度上實現了質的突破。

多感官敘事

首次實現音視訊單次處理同步生成,提供原生旁白、精準口型同步與沉浸式環境音效。

影院級 4K 畫質

支援高達 4K 解析度輸出,呈現照片級真實感的人臉、皮膚紋理和衣物細節,滿足專業製作標準。

精細化電影控制

提供平移、變焦、焦點切換等進階攝影機控制,讓創作者能夠「導演」場景,而不僅僅是「描述」它。

更長的敘事時長

支援生成長達 10 秒以上的影片片段,足以構成一個完整的敘事節奏或一個簡短的廣告片。

演進之路:從開源到巔峰

Wan 2.5 站在巨人的肩膀上,是技術迭代與戰略演進的必然結果。

Wan 2.1 / 2.2

開源基礎

奠定社群領導地位,普及高效能影片生成。


MoE 架構革命

引入混合專家架構,實現模型效能的可擴展性。

Wan 2.5 Preview

能力集大成者

整合音訊、動畫與進階控制於統一模型。


商業化 API

轉向高階專業市場,提供閉源 API 服務。

重塑市場格局

Wan 2.5 的發布,標誌著生成式影片市場進入三層結構的新時代。

第一層:高階閉源

產業標竿

由頂尖實驗室(OpenAI, Google, Alibaba)提供的旗艦模型,透過 API 存取,追求最高品質與最強控制力。

代表:Sora, Veo, Wan 2.5

第二層:遺留開源

社群主力

高品質但已落後一代的開源模型,是社群實驗、學習和非商業專案的核心。

代表:Wan 2.2, Stable Video Diffusion

第三層:獨立開源

創新先鋒

由社群驅動的小型或專用模型,提供獨特功能或針對特定硬體進行最佳化,是生態多樣性的來源。

代表:Community Models

Wan 模型系列特性與架構對比

下表透過對比核心架構、關鍵創新與發布模式等維度,直觀展示了 Wan 系列模型從開放普惠到專業商業化的完整演進路徑。

核心架構Wan 2.1Wan 2.2Wan 2.5 Preview (已公布/推測)
核心架構標準 Diffusion Transformer混合專家 (MoE) (高/低雜訊)演進版 MoE 架構
模型規模1.3B 和 14B 參數14B 啟用 / 27B 總參數可能 >30B 總參數
關鍵創新開源普及性與高效率MoE 實現可擴展效能整合多模態 (音視訊)
最高解析度720p (不穩定), 480p (建議)720p / 1080p4K (聲稱), 1080p (API 已確認)
最長時長約 3-5 秒約 5 秒10+ 秒
核心模態T2V, I2V, 影片編輯T2V, I2V, 及專用 S2V 和 Animate 模型統一的 T2V, I2V, 音視訊同步, 進階動畫
電影化控制基礎「影院級美學控制」精細的攝影機、光照與場景控制
發布模式開源 (Apache 2.0)開源 (Apache 2.0)僅 API (閉源)