通义万相 AI 视频生成

Wan 2.5 Preview

一场多感官叙事的革命。集成原生音频与影院级视觉控制,重新定义 AI 视频创作的边界。

能力的代际飞跃

Wan 2.5 集成了前代模型的精华,并在关键维度上实现了质的突破。

多感官叙事

首次实现音视频单次处理同步生成,提供原生旁白、精准口型同步与沉浸式环境音效。

影院级 4K 画质

支持高达 4K 分辨率输出,呈现照片级真实感的人脸、皮肤纹理和衣物细节,满足专业制作标准。

精细化电影控制

提供平移、变焦、焦点切换等高级摄像机控制,让创作者能够"导演"场景,而不仅仅是"描述"它。

更长的叙事时长

支持生成长达 10 秒以上的视频片段,足以构成一个完整的叙事节奏或一个简短的广告片。

演进之路:从开源到巅峰

Wan 2.5 站在巨人的肩膀上,是技术迭代与战略演进的必然结果。

Wan 2.1 / 2.2

开源基础

奠定社区领导地位,普及高性能视频生成。


MoE 架构革命

引入混合专家架构,实现模型性能的可扩展性。

Wan 2.5 Preview

能力集大成者

整合音频、动画与高级控制于统一模型。


商业化 API

转向高端专业市场,提供闭源 API 服务。

重塑市场格局

Wan 2.5 的发布,标志着生成式视频市场进入三层结构的新时代。

第一层:高端闭源

行业标杆

由顶尖实验室(OpenAI, Google, Alibaba)提供的旗舰模型,通过 API 访问,追求最高质量与最强控制力。

代表: Sora, Veo, Wan 2.5

第二层:遗留开源

社区主力

高质量但已落后一代的开源模型,是社区实验、学习和非商业项目的核心。

代表: Wan 2.2, Stable Video Diffusion

第三层:独立开源

创新先锋

由社区驱动的小型或专用模型,提供独特功能或针对特定硬件进行优化,是生态多样性的来源。

代表: Community Models

Wan 模型系列特性与架构对比

下表通过对比核心架构、关键创新与发布模式等维度,直观展示了 Wan 系列模型从开放普惠到专业商业化的完整演进路径。

核心架构Wan 2.1Wan 2.2Wan 2.5 Preview (已公布/推测)
核心架构标准 Diffusion Transformer混合专家 (MoE) (高/低噪声)演进版 MoE 架构
模型规模1.3B 和 14B 参数14B 激活 / 27B 总参数可能 >30B 总参数
关键创新开源普及性与高效率MoE 实现可扩展性能集成多模态 (音视频)
最高分辨率720p (不稳定), 480p (推荐)720p / 1080p4K (声称), 1080p (API 已确认)
最长时长约 3-5 秒约 5 秒10+ 秒
核心模态T2V, I2V, 视频编辑T2V, I2V, 及专用 S2V 和 Animate 模型统一的 T2V, I2V, 音视频同步, 高级动画
电影化控制基础"影院级美学控制"精细的摄像机、光照与场景控制
发布模式开源 (Apache 2.0)开源 (Apache 2.0)仅 API (闭源)