在 Artificial Analysis Video Arena 中表现强势,压过多款主流闭源模型。
HappyHorse-1.0
一款几乎一夜之间冲上榜首的开源视频模型。
HappyHorse-1.0 也常写作 Happy Horse 1.0,是一个 15B 多模态文本/图像转视频模型,支持原生音频生成,人物肖像表现突出,并且明确强调以真实用户偏好而不是实验室指标为导向。
40 层结构,两端做模态投影,中间大部分参数共享。
通过 DMD-2 蒸馏将去噪压到 8 步,同时支持快速音视频联合生成。
项目先以匿名身份上榜,随后很快被社区识别出团队背景。
团队来源、技术脉络与产品定位
HappyHorse-1.0 被视为阿里淘天生态里非常务实的一次开源尝试,目标明显偏向电商、短视频和数字人等真实业务场景。
核心团队
由张迪领衔的淘天集团未来生活实验室推进。公开信息显示,该实验室承接自原 ATH-AI 创新体系,近一年高频产出顶会论文,聚焦多模态生产力方向。
合作方与前身项目
项目与 Sand.ai、上海智能计算研究所 GAIR Lab 存在合作背景,并延续了 2026 年 3 月开源的 daVinci-MagiHuman 技术路线。
它想解决什么
官方叙事强调真实用户感知优化、验证开源模型上限,并为后续商业化工作流做准备,而不是只做 benchmark 展示。
15B 统一多模态生成栈
模型采用单流 self-attention 架构,而不是常见的 cross-attention 分支式设计,目的是统一条件建模并提升训练与推理稳定性。
40 层单流 Transformer
以纯 self-attention 为主干,将文本、视频、音频 token 放进同一序列中建模,不依赖显式 cross-attention。
Sandwich 模态布局
前 4 层和后 4 层负责 text/video/audio 的模态特定投影,中间 32 层参数共享。
高效推理路径
包括无显式 timestep 嵌入、Per-Head Gating、DMD-2 8 步蒸馏,以及 MagiCompiler 带来的端到端约 1.2 倍加速。
HappyHorse-1.0 的核心卖点
当前公开讨论最集中的点,是它在音视频同步、唇同步、人像质感和多镜头连贯性上的综合表现。
文生视频 / 图生视频
既支持纯文本 prompt,也支持参考图像或 latent 条件输入,覆盖 5 到 12 秒时长和多种视频比例。
原生音频生成
对话、环境音和 Foley 效果在同一条生成链路中完成,减少后期单独配音的成本。
多镜头叙事
单条 prompt 就能驱动场景切换、镜头变化和角色一致性,还支持通过 LoRA 预设做风格控制。
多语言唇同步
公开资料提到原生支持 7 种语言,包括普通话、粤语、英语、日语、韩语、德语和法语。
榜单热度与实际表现
HappyHorse-1.0 的讨论热度,主要来自实时榜单表现和盲测偏好的双重推动。
Artificial Analysis Video Arena
公开整理显示,它在文本/图像转视频无音频榜单位列第 1,有音频榜单位列第 2,图像转视频无音频也位列第 1,超过 Seedance 2.0、Kling 2.1、Ovi 1.1、LTX 2.3 等模型。
人类偏好胜率
盲测投票中,它相对 Ovi 1.1 和 LTX 2.3 都拿到了较强优势,说明它在用户感知层面的竞争力不只是纸面参数。
客观指标
公开对比重点强调了视觉质量、文本对齐、物理一致性,以及明显更低的唇同步词错率。
已知短板
目前人像和单人场景尤其强,但多角色和复杂场景仍被认为是相对薄弱的部分。
现在怎么用、接下来怎么看
现阶段它既被包装成可以直接试用的云端体验,也被期待成为一个可自托管的完整开源栈。
云端 Demo
如 happyhorse.video、happy-horse.art 等页面被当作浏览器入口,支持文生/图生视频、高清下载和 API 式接入。
本地部署
完整开源预计会包含基础模型、蒸馏模型、超分模块和推理代码。早期更适合 H100 级 GPU,后续社区量化会进一步降低门槛。
下一步发布节奏
接下来重点看技术报告、内容溯源或水印机制、审计机制,以及社区对消费级显卡的适配进度。
为什么这件事重要
HappyHorse-1.0 的意义不只是在榜单上赢一轮,而是在真实用户偏好的场景里,把开源模型推进到与顶级闭源系统正面竞争的位置。如果这个趋势持续下去,闭源定价、社区微调节奏以及垂直视频生产链路的成本都会被重新定义。