在 VBench 等权威基准中表现卓越 (综合得分 84.7%+),尤其擅长处理复杂动态、空间关系和多对象交互。
轻量级 1.3B 模型仅需约 8GB VRAM,即可在主流消费级 GPU 上流畅运行,大幅降低使用门槛。
不仅限于 T2V/I2V,更支持视频编辑、修复、扩展、音频生成 (V2A) 等多样化创作需求。
率先实现视频内中英双语文本的清晰生成,支持多种字体特效,极大拓展应用边界。
新颖的 3D 时空 VAE,显著提升编解码效率与质量,支持高分辨率长视频处理,兼顾速度与显存。
遵循 Apache 2.0 许可证,完全开放模型代码与权重,积极拥抱社区,共同推动技术进步与应用落地。
精准生成包含大幅度肢体动作、物体旋转、场景变换及镜头运动的逼真视频流。
示例: 模拟雪地摩托车手在雪地上疾驰扬雪的动态镜头。
准确模拟现实世界的物理规律,生成符合直觉的物体交互与动态效果。
示例: 熊猫在城市街道上表演高难度滑板特技,包括跳跃、旋转和滑行,动作流畅自然,展现精湛技巧。
提供媲美电影的视觉质感,生成纹理丰富、光影真实、风格多样的视频画面。
示例: 特写电影镜头捕捉变形间谍的面部。
基于 Wan-Edit 技术,支持多样化的视频编辑操作,实现对内容的精细调整。
示例: 在保留视频主体结构的同时,替换背景或添加元素。
突破性地支持在视频画面中直接生成清晰、动态的中英双语文字,可应用多种字体与特效。
提示示例 (水墨艺术): "红色新年纸背景上,一滴墨水缓缓扩散,形成模糊自然的「福」字,墨色由深至浅,展现东方美学。"
示例: 为产品演示视频添加动态的标语或注解。
不仅生成视觉,更能智能匹配或生成与画面内容、节奏相符的音效和背景音乐 (V2A)。
提示示例 (冰块掉落): "特写镜头,冰块从高处掉落到玻璃杯中,产生碎裂声和液体晃动声..." (生成匹配的音效)
示例: 为动画短片自动生成贴合情节氛围的背景音乐。
万相 2.1 提供不同参数规模和功能的模型变体,满足从快速验证到高质量创作的各类需求,均遵循 Apache 2.0 许可证开放源码。
13亿参数
文本到视频 (T2V),主打 480p 分辨率。专为消费级 GPU 优化,VRAM 需求低 (约 8GB)。
140亿参数
文本到视频 (T2V),提供卓越质量,支持 480p/720p 分辨率,具备独特的中英双语文本生成能力。
140亿参数
图像到视频 (I2V),结合图像参考与文本提示生成视频,提供 480p 和 720p 两种高质量变体。
140亿参数
首尾帧到视频 (FLF2V),根据起始与结束帧智能合成中间过渡,生成流畅视频,支持多 GPU 加速。
🚀 阿里巴巴通义实验室推出首个 140 亿参数的首尾帧到视频生成大模型!该模型完全开源,为数字艺术家提供前所未有的创作效率与灵活性。
生成电影级、高保真的视频内容,细节丰富,物理效果逼真。
精准捕捉和生成复杂的物体运动、镜头移动和自然的动态交互。
独特的视频内中英双语文本生成能力,为内容创作增添更多可能。
先进的 Wan-VAE 技术带来更快的处理速度和更优的资源利用效率。
开源结合消费级硬件支持,让人人都能体验前沿 AI 视频技术。
受益于全球开发者的贡献、优化与集成,生态持续发展壮大。
万相 2.1 基于主流的扩散 Transformer (DiT) 范式,并引入了创新的 3D 时空变分自编码器 (Wan-VAE) 来高效处理视频数据。它还采用了 Flow Matching 技术,并通过 T5 编码器理解文本提示,利用交叉注意力机制融合文本与视觉信息。
硬件需求取决于模型版本。1.3B T2V 模型对消费级 GPU 非常友好,最低仅需约 8GB VRAM。而 14B 的模型(T2V, I2V, FLF2V)则需要更强大的硬件,推荐使用具有 24GB 或更多 VRAM 的专业级 GPU (如 A100, RTX 4090),甚至可能需要多 GPU 配置来进行高效推理。
万相 2.1 在 VBench 等基准上表现出色,常被认为在某些指标(如运动平滑度、主体一致性)上优于或媲美 Sora 等闭源模型。其主要优势在于开源、消费级硬件支持(1.3B模型)和独特的双语文本生成。Sora 和 Veo 2 可能是闭源的,可能在特定美学质量或长视频生成上有所侧重,但万相 2.1 提供了更高的灵活性和效率。
虽然万相 2.1 能够生成高质量视频,但与所有生成模型一样,输出质量可能存在一定的不稳定性,有时会出现伪影、变形或细节控制不佳的情况(尤其在复杂场景或特定风格下,如人物肖像)。其他局限性包括:较大模型生成速度相对较慢、对硬件要求高、以及开源模型普遍存在的内容安全和伦理风险(如缺乏内置水印)。
您可以访问官方的 GitHub 仓库获取源代码、模型权重和详细的使用说明。模型也已集成到 Hugging Face Hub、Diffusers、ComfyUI 等流行平台,方便用户直接调用或在本地部署。社区也提供了许多教程和工具。
万相 2.1 的代码和模型权重均遵循 Apache 2.0 许可证进行开源。这意味着它允许用户自由地使用、修改和分发,包括商业用途,但需要遵守许可证的相关条款(如保留版权声明和免责声明)。