在 VBench 等權威基准中表現卓越 (綜合得分 84.7%+),尤其擅長處理複雜動態、空間關係和多對象交互。
輕量級 1.3B 模型僅需約 8GB VRAM,即可在主流消費級 GPU 上流暢運行,大幅降低使用門檻。
不僅限於 T2V/I2V,更支持視頻編輯、修復、擴展、音頻生成 (V2A) 等多樣化創作需求。
率先實現視頻內中英雙語文本的清晰生成,支持多種字體特效,極大拓展應用邊界。
新穎的 3D 時空 VAE,顯著提升編解碼效率與質量,支持高分辨率長視頻處理,兼顧速度與顯存。
遵循 Apache 2.0 許可證,完全開放模型代碼與權重,積極擁抱社區,共同推動技術進步與應用落地。
精準生成包含大幅度肢體動作、物體旋轉、場景變換及鏡頭運動的逼真視頻流。
示例: 模擬雪地摩托車手在雪地上疾馳揚雪的動態鏡頭。
準確模擬現實世界的物理規律,生成符合直覺的物體交互與動態效果。
示例: 熊貓在城市街道上表演高難度滑板特技,包括跳躍、旋轉和滑行,動作流暢自然,展現精湛技巧。
提供媲美電影的視覺質感,生成紋理豐富、光影真實、風格多樣的視頻畫面。
示例: 特寫電影鏡頭捕捉變形間諜的面部。
基於 Wan-Edit 技術,支持多樣化的視頻編輯操作,實現對內容的精細調整。
示例: 在保留視頻主體結構的同時,替換背景或添加元素。
突破性地支持在視頻畫面中直接生成清晰、動態的中英雙語文字,可應用多種字體與特效。
提示示例 (水墨藝術): "紅色新年紙背景上,一滴墨水緩緩擴散,形成模糊自然的「福」字,墨色由深至淺,展現東方美學。"
示例: 為產品演示視頻添加動態的標語或註解。
不僅生成視覺,更能智能匹配或生成與畫面內容、節奏相符的音效和背景音樂 (V2A)。
提示示例 (冰塊掉落): "特寫鏡頭,冰塊從高處掉落到玻璃杯中,產生碎裂聲和液體晃動聲..." (生成匹配的音效)
示例: 為動畫短片自動生成貼合情節氛圍的背景音樂。
萬相 2.1 提供不同參數規模和功能的模型變體,滿足從快速驗證到高質量創作的各類需求,均遵循 Apache 2.0 許可證開放源碼。
13億參數
文本到視頻 (T2V),主打 480p 分辨率。專為消費級 GPU 優化,VRAM 需求低 (約 8GB)。
140億參數
文本到視頻 (T2V),提供卓越質量,支持 480p/720p 分辨率,具備獨特的中英雙語文本生成能力。
140億參數
圖像到視頻 (I2V),結合圖像參考與文本提示生成視頻,提供 480p 和 720p 兩種高質量變體。
140億參數
首尾幀到視頻 (FLF2V),根據起始與結束幀智能合成中間過渡,生成流暢視頻,支持多 GPU 加速。
🚀 阿里巴巴通義實驗室推出首個 140 億參數的首尾幀到視頻生成大模型!該模型完全開源,為數字藝術家提供前所未有的創作效率與靈活性。
生成電影級、高保真的視頻內容,細節豐富,物理效果逼真。
精準捕捉和生成複雜的物體運動、鏡頭移動和自然的動態交互。
獨特的視頻內中英雙語文本生成能力,為內容創作增添更多可能。
先進的 Wan-VAE 技術帶來更快的處理速度和更優的資源利用效率。
開源結合消費級硬件支持,讓人人都能體驗前沿 AI 視頻技術。
受益於全球開發者的貢獻、優化與集成,生態持續發展壯大。
萬相 2.1 基於主流的擴散 Transformer (DiT) 範式,並引入了創新的 3D 時空變分自編碼器 (Wan-VAE) 來高效處理視頻數據。它還採用了 Flow Matching 技術,並通過 T5 編碼器理解文本提示,利用交叉注意力機制融合文本與視覺信息。
硬件需求取決於模型版本。1.3B T2V 模型對消費級 GPU 非常友好,最低僅需約 8GB VRAM。而 14B 的模型(T2V, I2V, FLF2V)則需要更強大的硬件,推薦使用具有 24GB 或更多 VRAM 的專業級 GPU (如 A100, RTX 4090),甚至可能需要多 GPU 配置來進行高效推理。
萬相 2.1 在 VBench 等基准上表現出色,常被認為在某些指標(如運動平滑度、主體一致性)上優於或媲美 Sora 等閉源模型。其主要優勢在於開源、消費級硬件支持(1.3B模型)和獨特的雙語文本生成。Sora 和 Veo 2 可能是閉源的,可能在特定美學質量或長視頻生成上有所側重,但萬相 2.1 提供了更高的靈活性和效率。
雖然萬相 2.1 能夠生成高質量視頻,但與所有生成模型一樣,輸出質量可能存在一定的不穩定性,有時會出現偽影、變形或細節控制不佳的情況(尤其在複雜場景或特定風格下,如人物肖像)。其他局限性包括:較大模型生成速度相對較慢、對硬件要求高、以及開源模型普遍存在的內容安全和倫理風險(如缺乏內置水印)。
您可以訪問官方的 GitHub 倉庫獲取源代碼、模型權重和詳細的使用說明。模型也已集成到 Hugging Face Hub、Diffusers、ComfyUI 等流行平台,方便用戶直接調用或在本地部署。社區也提供了許多教程和工具。
萬相 2.1 的代碼和模型權重均遵循 Apache 2.0 許可證進行開源。這意味著它允許用戶自由地使用、修改和分發,包括商業用途,但需要遵守許可證的相關條款(如保留版權聲明和免責聲明)。