通义万相 AI 视频生成

Wan 2.5 Preview

一场多感官叙事的革命。集成原生音频与影院级视觉控制，重新定义 AI 视频创作的边界。

能力的代际飞跃

Wan 2.5 集成了前代模型的精华，并在关键维度上实现了质的突破。

首次实现音视频单次处理同步生成，提供原生旁白、精准口型同步与沉浸式环境音效。

支持高达 4K 分辨率输出，呈现照片级真实感的人脸、皮肤纹理和衣物细节，满足专业制作标准。

提供平移、变焦、焦点切换等高级摄像机控制，让创作者能够"导演"场景，而不仅仅是"描述"它。

支持生成长达 10 秒以上的视频片段，足以构成一个完整的叙事节奏或一个简短的广告片。

Wan 2.5 站在巨人的肩膀上，是技术迭代与战略演进的必然结果。

开源基础

奠定社区领导地位，普及高性能视频生成。

MoE 架构革命

引入混合专家架构，实现模型性能的可扩展性。

能力集大成者

整合音频、动画与高级控制于统一模型。

商业化 API

转向高端专业市场，提供闭源 API 服务。

Wan 2.5 的发布，标志着生成式视频市场进入三层结构的新时代。

第一层：高端闭源

由顶尖实验室（OpenAI, Google, Alibaba）提供的旗舰模型，通过 API 访问，追求最高质量与最强控制力。

代表: Sora, Veo, Wan 2.5

第二层：遗留开源

高质量但已落后一代的开源模型，是社区实验、学习和非商业项目的核心。

代表: Wan 2.2, Stable Video Diffusion

第三层：独立开源

由社区驱动的小型或专用模型，提供独特功能或针对特定硬件进行优化，是生态多样性的来源。

代表: Community Models

下表通过对比核心架构、关键创新与发布模式等维度，直观展示了 Wan 系列模型从开放普惠到专业商业化的完整演进路径。

核心架构	Wan 2.1	Wan 2.2	Wan 2.5 Preview (已公布/推测)
核心架构	标准 Diffusion Transformer	混合专家 (MoE) (高/低噪声)	演进版 MoE 架构
模型规模	1.3B 和 14B 参数	14B 激活 / 27B 总参数	可能 >30B 总参数
关键创新	开源普及性与高效率	MoE 实现可扩展性能	集成多模态 (音视频)
最高分辨率	720p (不稳定), 480p (推荐)	720p / 1080p	4K (声称), 1080p (API 已确认)
最长时长	约 3-5 秒	约 5 秒	10+ 秒
核心模态	T2V, I2V, 视频编辑	T2V, I2V, 及专用 S2V 和 Animate 模型	统一的 T2V, I2V, 音视频同步, 高级动画
电影化控制	基础	"影院级美学控制"	精细的摄像机、光照与场景控制
发布模式	开源 (Apache 2.0)	开源 (Apache 2.0)	仅 API (闭源)