通義萬相 AI 影片生成
Wan 2.5 Preview
一場多感官敘事的革命。整合原生音訊與影院級視覺控制,重新定義 AI 影片創作的邊界。
能力的代際飛躍
Wan 2.5 整合了前代模型的精華,並在關鍵維度上實現了質的突破。
多感官敘事
首次實現音視訊單次處理同步生成,提供原生旁白、精準口型同步與沉浸式環境音效。
影院級 4K 畫質
支援高達 4K 解析度輸出,呈現照片級真實感的人臉、皮膚紋理和衣物細節,滿足專業製作標準。
精細化電影控制
提供平移、變焦、焦點切換等進階攝影機控制,讓創作者能夠「導演」場景,而不僅僅是「描述」它。
更長的敘事時長
支援生成長達 10 秒以上的影片片段,足以構成一個完整的敘事節奏或一個簡短的廣告片。
演進之路:從開源到巔峰
Wan 2.5 站在巨人的肩膀上,是技術迭代與戰略演進的必然結果。
Wan 2.1 / 2.2
開源基礎
奠定社群領導地位,普及高效能影片生成。
MoE 架構革命
引入混合專家架構,實現模型效能的可擴展性。
Wan 2.5 Preview
能力集大成者
整合音訊、動畫與進階控制於統一模型。
商業化 API
轉向高階專業市場,提供閉源 API 服務。
重塑市場格局
Wan 2.5 的發布,標誌著生成式影片市場進入三層結構的新時代。
第一層:高階閉源
產業標竿
由頂尖實驗室(OpenAI, Google, Alibaba)提供的旗艦模型,透過 API 存取,追求最高品質與最強控制力。
代表:Sora, Veo, Wan 2.5
第二層:遺留開源
社群主力
高品質但已落後一代的開源模型,是社群實驗、學習和非商業專案的核心。
代表:Wan 2.2, Stable Video Diffusion
第三層:獨立開源
創新先鋒
由社群驅動的小型或專用模型,提供獨特功能或針對特定硬體進行最佳化,是生態多樣性的來源。
代表:Community Models
Wan 模型系列特性與架構對比
下表透過對比核心架構、關鍵創新與發布模式等維度,直觀展示了 Wan 系列模型從開放普惠到專業商業化的完整演進路徑。
核心架構 | Wan 2.1 | Wan 2.2 | Wan 2.5 Preview (已公布/推測) |
---|---|---|---|
核心架構 | 標準 Diffusion Transformer | 混合專家 (MoE) (高/低雜訊) | 演進版 MoE 架構 |
模型規模 | 1.3B 和 14B 參數 | 14B 啟用 / 27B 總參數 | 可能 >30B 總參數 |
關鍵創新 | 開源普及性與高效率 | MoE 實現可擴展效能 | 整合多模態 (音視訊) |
最高解析度 | 720p (不穩定), 480p (建議) | 720p / 1080p | 4K (聲稱), 1080p (API 已確認) |
最長時長 | 約 3-5 秒 | 約 5 秒 | 10+ 秒 |
核心模態 | T2V, I2V, 影片編輯 | T2V, I2V, 及專用 S2V 和 Animate 模型 | 統一的 T2V, I2V, 音視訊同步, 進階動畫 |
電影化控制 | 基礎 | 「影院級美學控制」 | 精細的攝影機、光照與場景控制 |
發布模式 | 開源 (Apache 2.0) | 開源 (Apache 2.0) | 僅 API (閉源) |