萬相 2.1: 開源 AI 視頻生成模型

探索萬相 2.1 的強大功能,這是一個基於擴散 Transformer 和 Wan-VAE 的開源 AI 視頻生成模型,支持 T2V、I2V 等多種任務。

基於擴散 Transformer,融合 Wan-VAE 創新架構,支持 T2V、I2V 等多種任務。

萬相 2.1 核心優勢

行業領先性能

在 VBench 等權威基准中表現卓越 (綜合得分 84.7%+),尤其擅長處理複雜動態、空間關係和多對象交互。

消費級 GPU

輕量級 1.3B 模型僅需約 8GB VRAM,即可在主流消費級 GPU 上流暢運行,大幅降低使用門檻。

全能多任務支持

不僅限於 T2V/I2V,更支持視頻編輯、修復、擴展、音頻生成 (V2A) 等多樣化創作需求。

獨特文本渲染

率先實現視頻內中英雙語文本的清晰生成,支持多種字體特效,極大拓展應用邊界。

高效 Wan-VAE 架構

新穎的 3D 時空 VAE,顯著提升編解碼效率與質量,支持高分辨率長視頻處理,兼顧速度與顯存。

開放開源生態

遵循 Apache 2.0 許可證,完全開放模型代碼與權重,積極擁抱社區,共同推動技術進步與應用落地。

釋放創意:探索萬相 2.1 的強大功能

流暢捕捉複雜運動

精準生成包含大幅度肢體動作、物體旋轉、場景變換及鏡頭運動的逼真視頻流。

  • 動感舞蹈 (如:嘻哈、華爾茲)
  • 體育競技 (如:拳擊、自行車賽)
  • 快速運鏡與跟隨

示例: 模擬雪地摩托車手在雪地上疾馳揚雪的動態鏡頭。

逼真還原物理世界

準確模擬現實世界的物理規律,生成符合直覺的物體交互與動態效果。

  • 流體效果 (如:水面波動、濺射)
  • 剛體碰撞與形變
  • 粒子效果 (如:煙霧、火花)

示例: 熊貓在城市街道上表演高難度滑板特技,包括跳躍、旋轉和滑行,動作流暢自然,展現精湛技巧。

打造電影級視覺盛宴

提供媲美電影的視覺質感,生成紋理豐富、光影真實、風格多樣的視頻畫面。

  • 細膩的材質紋理表現
  • 豐富的光影氛圍營造
  • 支持多種藝術風格遷移

示例: 特寫電影鏡頭捕捉變形間諜的面部。

精準實現可控編輯

基於 Wan-Edit 技術,支持多樣化的視頻編輯操作,實現對內容的精細調整。

  • 參考圖像/視頻進行風格或內容遷移
  • 保持特定結構或人物姿態
  • 視頻局部修復 (Inpainting) 與擴展 (Outpainting)

示例: 在保留視頻主體結構的同時,替換背景或添加元素。

視頻內生成動態文本

突破性地支持在視頻畫面中直接生成清晰、動態的中英雙語文字,可應用多種字體與特效。

提示示例 (水墨藝術): "紅色新年紙背景上,一滴墨水緩緩擴散,形成模糊自然的「福」字,墨色由深至淺,展現東方美學。"

示例: 為產品演示視頻添加動態的標語或註解。

智能匹配音效音樂

不僅生成視覺,更能智能匹配或生成與畫面內容、節奏相符的音效和背景音樂 (V2A)。

提示示例 (冰塊掉落): "特寫鏡頭,冰塊從高處掉落到玻璃杯中,產生碎裂聲和液體晃動聲..." (生成匹配的音效)

示例: 為動畫短片自動生成貼合情節氛圍的背景音樂。

多樣化模型選擇,全面開源

萬相 2.1 提供不同參數規模和功能的模型變體,滿足從快速驗證到高質量創作的各類需求,均遵循 Apache 2.0 許可證開放源碼。

Wan2.1-T2V-1.3B

13億參數

文本到視頻 (T2V),主打 480p 分辨率。專為消費級 GPU 優化,VRAM 需求低 (約 8GB)。

消費級友好 480p

Wan2.1-T2V-14B

140億參數

文本到視頻 (T2V),提供卓越質量,支持 480p/720p 分辨率,具備獨特的中英雙語文本生成能力。

高質量 雙語文本 480p/720p

Wan2.1-I2V-14B

140億參數

圖像到視頻 (I2V),結合圖像參考與文本提示生成視頻,提供 480p 和 720p 兩種高質量變體。

圖像驅動 480p/720p

Wan2.1-FLF2V-14B

140億參數

首尾幀到視頻 (FLF2V),根據起始與結束幀智能合成中間過渡,生成流暢視頻,支持多 GPU 加速。

幀插值 720p 多GPU
新發布

Wan2.1-FLF2V-14B 重磅登場

🚀 阿里巴巴通義實驗室推出首個 140 億參數的首尾幀到視頻生成大模型!該模型完全開源,為數字藝術家提供前所未有的創作效率與靈活性。

🔧 技術亮點

  • 基於數據驅動訓練與 DiT 架構,結合首尾幀條件控制
  • 完美複製參考視覺元素,精準遵循指令
  • 流暢過渡與真實物理效果
  • 電影級 720P 輸出質量

為何萬相 2.1 是您的理想選擇?

卓越視覺質量

生成電影級、高保真的視頻內容,細節豐富,物理效果逼真。

強大運動理解

精準捕捉和生成複雜的物體運動、鏡頭移動和自然的動態交互。

創新文本植入

獨特的視頻內中英雙語文本生成能力,為內容創作增添更多可能。

高效生成框架

先進的 Wan-VAE 技術帶來更快的處理速度和更優的資源利用效率。

技術民主化

開源結合消費級硬件支持,讓人人都能體驗前沿 AI 視頻技術。

活躍社區賦能

受益於全球開發者的貢獻、優化與集成,生態持續發展壯大。

常見問題解答 (FAQ)

萬相 2.1 的核心技術是什麼?

萬相 2.1 基於主流的擴散 Transformer (DiT) 範式,並引入了創新的 3D 時空變分自編碼器 (Wan-VAE) 來高效處理視頻數據。它還採用了 Flow Matching 技術,並通過 T5 編碼器理解文本提示,利用交叉注意力機制融合文本與視覺信息。

運行萬相 2.1 需要什麼樣的硬件配置?

硬件需求取決於模型版本。1.3B T2V 模型對消費級 GPU 非常友好,最低僅需約 8GB VRAM。而 14B 的模型(T2V, I2V, FLF2V)則需要更強大的硬件,推薦使用具有 24GB 或更多 VRAM 的專業級 GPU (如 A100, RTX 4090),甚至可能需要多 GPU 配置來進行高效推理。

萬相 2.1 和 Sora、Veo 2 等模型相比有何異同?

萬相 2.1 在 VBench 等基准上表現出色,常被認為在某些指標(如運動平滑度、主體一致性)上優於或媲美 Sora 等閉源模型。其主要優勢在於開源、消費級硬件支持(1.3B模型)和獨特的雙語文本生成。Sora 和 Veo 2 可能是閉源的,可能在特定美學質量或長視頻生成上有所側重,但萬相 2.1 提供了更高的靈活性和效率。

生成視頻的質量穩定嗎?有哪些已知的局限性?

雖然萬相 2.1 能夠生成高質量視頻,但與所有生成模型一樣,輸出質量可能存在一定的不穩定性,有時會出現偽影、變形或細節控制不佳的情況(尤其在複雜場景或特定風格下,如人物肖像)。其他局限性包括:較大模型生成速度相對較慢、對硬件要求高、以及開源模型普遍存在的內容安全和倫理風險(如缺乏內置水印)。

如何開始使用萬相 2.1?

您可以訪問官方的 GitHub 倉庫獲取源代碼、模型權重和詳細的使用說明。模型也已集成到 Hugging Face Hub、Diffusers、ComfyUI 等流行平台,方便用戶直接調用或在本地部署。社區也提供了許多教程和工具。

萬相 2.1 的開源許可證是什麼?

萬相 2.1 的代碼和模型權重均遵循 Apache 2.0 許可證進行開源。這意味著它允許用戶自由地使用、修改和分發,包括商業用途,但需要遵守許可證的相關條款(如保留版權聲明和免責聲明)。