万相 2.1: 开源 AI 视频生成模型

探索万相 2.1 的强大功能,这是一个基于扩散 Transformer 和 Wan-VAE 的开源 AI 视频生成模型,支持 T2V、I2V 等多种任务。

基于扩散 Transformer,融合 Wan-VAE 创新架构,支持 T2V、I2V 等多种任务。

万相 2.1 核心优势

行业领先性能

在 VBench 等权威基准中表现卓越 (综合得分 84.7%+),尤其擅长处理复杂动态、空间关系和多对象交互。

消费级 GPU

轻量级 1.3B 模型仅需约 8GB VRAM,即可在主流消费级 GPU 上流畅运行,大幅降低使用门槛。

全能多任务支持

不仅限于 T2V/I2V,更支持视频编辑、修复、扩展、音频生成 (V2A) 等多样化创作需求。

独特文本渲染

率先实现视频内中英双语文本的清晰生成,支持多种字体特效,极大拓展应用边界。

高效 Wan-VAE 架构

新颖的 3D 时空 VAE,显著提升编解码效率与质量,支持高分辨率长视频处理,兼顾速度与显存。

开放开源生态

遵循 Apache 2.0 许可证,完全开放模型代码与权重,积极拥抱社区,共同推动技术进步与应用落地。

释放创意:探索万相 2.1 的强大功能

流畅捕捉复杂运动

精准生成包含大幅度肢体动作、物体旋转、场景变换及镜头运动的逼真视频流。

  • 动感舞蹈 (如:嘻哈、华尔兹)
  • 体育竞技 (如:拳击、自行车赛)
  • 快速运镜与跟随

示例: 模拟雪地摩托车手在雪地上疾驰扬雪的动态镜头。

逼真还原物理世界

准确模拟现实世界的物理规律,生成符合直觉的物体交互与动态效果。

  • 流体效果 (如:水面波动、溅射)
  • 刚体碰撞与形变
  • 粒子效果 (如:烟雾、火花)

示例: 熊猫在城市街道上表演高难度滑板特技,包括跳跃、旋转和滑行,动作流畅自然,展现精湛技巧。

打造电影级视觉盛宴

提供媲美电影的视觉质感,生成纹理丰富、光影真实、风格多样的视频画面。

  • 细腻的材质纹理表现
  • 丰富的光影氛围营造
  • 支持多种艺术风格迁移

示例: 特写电影镜头捕捉变形间谍的面部。

精准实现可控编辑

基于 Wan-Edit 技术,支持多样化的视频编辑操作,实现对内容的精细调整。

  • 参考图像/视频进行风格或内容迁移
  • 保持特定结构或人物姿态
  • 视频局部修复 (Inpainting) 与扩展 (Outpainting)

示例: 在保留视频主体结构的同时,替换背景或添加元素。

视频内生成动态文本

突破性地支持在视频画面中直接生成清晰、动态的中英双语文字,可应用多种字体与特效。

提示示例 (水墨艺术): "红色新年纸背景上,一滴墨水缓缓扩散,形成模糊自然的「福」字,墨色由深至浅,展现东方美学。"

示例: 为产品演示视频添加动态的标语或注解。

智能匹配音效音乐

不仅生成视觉,更能智能匹配或生成与画面内容、节奏相符的音效和背景音乐 (V2A)。

提示示例 (冰块掉落): "特写镜头,冰块从高处掉落到玻璃杯中,产生碎裂声和液体晃动声..." (生成匹配的音效)

示例: 为动画短片自动生成贴合情节氛围的背景音乐。

多样化模型选择,全面开源

万相 2.1 提供不同参数规模和功能的模型变体,满足从快速验证到高质量创作的各类需求,均遵循 Apache 2.0 许可证开放源码。

Wan2.1-T2V-1.3B

13亿参数

文本到视频 (T2V),主打 480p 分辨率。专为消费级 GPU 优化,VRAM 需求低 (约 8GB)。

消费级友好 480p

Wan2.1-T2V-14B

140亿参数

文本到视频 (T2V),提供卓越质量,支持 480p/720p 分辨率,具备独特的中英双语文本生成能力。

高质量 双语文本 480p/720p

Wan2.1-I2V-14B

140亿参数

图像到视频 (I2V),结合图像参考与文本提示生成视频,提供 480p 和 720p 两种高质量变体。

图像驱动 480p/720p

Wan2.1-FLF2V-14B

140亿参数

首尾帧到视频 (FLF2V),根据起始与结束帧智能合成中间过渡,生成流畅视频,支持多 GPU 加速。

帧插值 720p 多GPU
新发布

Wan2.1-FLF2V-14B 重磅登场

🚀 阿里巴巴通义实验室推出首个 140 亿参数的首尾帧到视频生成大模型!该模型完全开源,为数字艺术家提供前所未有的创作效率与灵活性。

🔧 技术亮点

  • 基于数据驱动训练与 DiT 架构,结合首尾帧条件控制
  • 完美复制参考视觉元素,精准遵循指令
  • 流畅过渡与真实物理效果
  • 电影级 720P 输出质量

为何万相 2.1 是您的理想选择?

卓越视觉质量

生成电影级、高保真的视频内容,细节丰富,物理效果逼真。

强大运动理解

精准捕捉和生成复杂的物体运动、镜头移动和自然的动态交互。

创新文本植入

独特的视频内中英双语文本生成能力,为内容创作增添更多可能。

高效生成框架

先进的 Wan-VAE 技术带来更快的处理速度和更优的资源利用效率。

技术民主化

开源结合消费级硬件支持,让人人都能体验前沿 AI 视频技术。

活跃社区赋能

受益于全球开发者的贡献、优化与集成,生态持续发展壮大。

常见问题解答 (FAQ)

万相 2.1 的核心技术是什么?

万相 2.1 基于主流的扩散 Transformer (DiT) 范式,并引入了创新的 3D 时空变分自编码器 (Wan-VAE) 来高效处理视频数据。它还采用了 Flow Matching 技术,并通过 T5 编码器理解文本提示,利用交叉注意力机制融合文本与视觉信息。

运行万相 2.1 需要什么样的硬件配置?

硬件需求取决于模型版本。1.3B T2V 模型对消费级 GPU 非常友好,最低仅需约 8GB VRAM。而 14B 的模型(T2V, I2V, FLF2V)则需要更强大的硬件,推荐使用具有 24GB 或更多 VRAM 的专业级 GPU (如 A100, RTX 4090),甚至可能需要多 GPU 配置来进行高效推理。

万相 2.1 和 Sora、Veo 2 等模型相比有何异同?

万相 2.1 在 VBench 等基准上表现出色,常被认为在某些指标(如运动平滑度、主体一致性)上优于或媲美 Sora 等闭源模型。其主要优势在于开源、消费级硬件支持(1.3B模型)和独特的双语文本生成。Sora 和 Veo 2 可能是闭源的,可能在特定美学质量或长视频生成上有所侧重,但万相 2.1 提供了更高的灵活性和效率。

生成视频的质量稳定吗?有哪些已知的局限性?

虽然万相 2.1 能够生成高质量视频,但与所有生成模型一样,输出质量可能存在一定的不稳定性,有时会出现伪影、变形或细节控制不佳的情况(尤其在复杂场景或特定风格下,如人物肖像)。其他局限性包括:较大模型生成速度相对较慢、对硬件要求高、以及开源模型普遍存在的内容安全和伦理风险(如缺乏内置水印)。

如何开始使用万相 2.1?

您可以访问官方的 GitHub 仓库获取源代码、模型权重和详细的使用说明。模型也已集成到 Hugging Face Hub、Diffusers、ComfyUI 等流行平台,方便用户直接调用或在本地部署。社区也提供了许多教程和工具。

万相 2.1 的开源许可证是什么?

万相 2.1 的代码和模型权重均遵循 Apache 2.0 许可证进行开源。这意味着它允许用户自由地使用、修改和分发,包括商业用途,但需要遵守许可证的相关条款(如保留版权声明和免责声明)。