通义万相 AI 视频生成
Wan 2.5 Preview
一场多感官叙事的革命。集成原生音频与影院级视觉控制,重新定义 AI 视频创作的边界。
能力的代际飞跃
Wan 2.5 集成了前代模型的精华,并在关键维度上实现了质的突破。
多感官叙事
首次实现音视频单次处理同步生成,提供原生旁白、精准口型同步与沉浸式环境音效。
影院级 4K 画质
支持高达 4K 分辨率输出,呈现照片级真实感的人脸、皮肤纹理和衣物细节,满足专业制作标准。
精细化电影控制
提供平移、变焦、焦点切换等高级摄像机控制,让创作者能够"导演"场景,而不仅仅是"描述"它。
更长的叙事时长
支持生成长达 10 秒以上的视频片段,足以构成一个完整的叙事节奏或一个简短的广告片。
演进之路:从开源到巅峰
Wan 2.5 站在巨人的肩膀上,是技术迭代与战略演进的必然结果。
Wan 2.1 / 2.2
开源基础
奠定社区领导地位,普及高性能视频生成。
MoE 架构革命
引入混合专家架构,实现模型性能的可扩展性。
Wan 2.5 Preview
能力集大成者
整合音频、动画与高级控制于统一模型。
商业化 API
转向高端专业市场,提供闭源 API 服务。
重塑市场格局
Wan 2.5 的发布,标志着生成式视频市场进入三层结构的新时代。
第一层:高端闭源
行业标杆
由顶尖实验室(OpenAI, Google, Alibaba)提供的旗舰模型,通过 API 访问,追求最高质量与最强控制力。
代表: Sora, Veo, Wan 2.5
第二层:遗留开源
社区主力
高质量但已落后一代的开源模型,是社区实验、学习和非商业项目的核心。
代表: Wan 2.2, Stable Video Diffusion
第三层:独立开源
创新先锋
由社区驱动的小型或专用模型,提供独特功能或针对特定硬件进行优化,是生态多样性的来源。
代表: Community Models
Wan 模型系列特性与架构对比
下表通过对比核心架构、关键创新与发布模式等维度,直观展示了 Wan 系列模型从开放普惠到专业商业化的完整演进路径。
核心架构 | Wan 2.1 | Wan 2.2 | Wan 2.5 Preview (已公布/推测) |
---|---|---|---|
核心架构 | 标准 Diffusion Transformer | 混合专家 (MoE) (高/低噪声) | 演进版 MoE 架构 |
模型规模 | 1.3B 和 14B 参数 | 14B 激活 / 27B 总参数 | 可能 >30B 总参数 |
关键创新 | 开源普及性与高效率 | MoE 实现可扩展性能 | 集成多模态 (音视频) |
最高分辨率 | 720p (不稳定), 480p (推荐) | 720p / 1080p | 4K (声称), 1080p (API 已确认) |
最长时长 | 约 3-5 秒 | 约 5 秒 | 10+ 秒 |
核心模态 | T2V, I2V, 视频编辑 | T2V, I2V, 及专用 S2V 和 Animate 模型 | 统一的 T2V, I2V, 音视频同步, 高级动画 |
电影化控制 | 基础 | "影院级美学控制" | 精细的摄像机、光照与场景控制 |
发布模式 | 开源 (Apache 2.0) | 开源 (Apache 2.0) | 仅 API (闭源) |