2026 年 4 月开源黑马

HappyHorse-1.0

一款几乎一夜之间冲上榜首的开源视频模型。

HappyHorse-1.0 也常写作 Happy Horse 1.0,是一个 15B 多模态文本/图像转视频模型,支持原生音频生成,人物肖像表现突出,并且明确强调以真实用户偏好而不是实验室指标为导向。

Arena 排名
无音频第 1,有音频第 2

在 Artificial Analysis Video Arena 中表现强势,压过多款主流闭源模型。

核心模型
15B 单流 Transformer

40 层结构,两端做模态投影,中间大部分参数共享。

生成速度
5 秒 256p 约 2 秒

通过 DMD-2 蒸馏将去噪压到 8 步,同时支持快速音视频联合生成。

发布方式
先匿名冲榜,再被社区破案

项目先以匿名身份上榜,随后很快被社区识别出团队背景。

背景

团队来源、技术脉络与产品定位

HappyHorse-1.0 被视为阿里淘天生态里非常务实的一次开源尝试,目标明显偏向电商、短视频和数字人等真实业务场景。

核心团队

由张迪领衔的淘天集团未来生活实验室推进。公开信息显示,该实验室承接自原 ATH-AI 创新体系,近一年高频产出顶会论文,聚焦多模态生产力方向。

合作方与前身项目

项目与 Sand.ai、上海智能计算研究所 GAIR Lab 存在合作背景,并延续了 2026 年 3 月开源的 daVinci-MagiHuman 技术路线。

它想解决什么

官方叙事强调真实用户感知优化、验证开源模型上限,并为后续商业化工作流做准备,而不是只做 benchmark 展示。

架构

15B 统一多模态生成栈

模型采用单流 self-attention 架构,而不是常见的 cross-attention 分支式设计,目的是统一条件建模并提升训练与推理稳定性。

40 层单流 Transformer

以纯 self-attention 为主干,将文本、视频、音频 token 放进同一序列中建模,不依赖显式 cross-attention。

Sandwich 模态布局

前 4 层和后 4 层负责 text/video/audio 的模态特定投影,中间 32 层参数共享。

高效推理路径

包括无显式 timestep 嵌入、Per-Head Gating、DMD-2 8 步蒸馏,以及 MagiCompiler 带来的端到端约 1.2 倍加速。

能力

HappyHorse-1.0 的核心卖点

当前公开讨论最集中的点,是它在音视频同步、唇同步、人像质感和多镜头连贯性上的综合表现。

文生视频 / 图生视频

既支持纯文本 prompt,也支持参考图像或 latent 条件输入,覆盖 5 到 12 秒时长和多种视频比例。

原生音频生成

对话、环境音和 Foley 效果在同一条生成链路中完成,减少后期单独配音的成本。

多镜头叙事

单条 prompt 就能驱动场景切换、镜头变化和角色一致性,还支持通过 LoRA 预设做风格控制。

多语言唇同步

公开资料提到原生支持 7 种语言,包括普通话、粤语、英语、日语、韩语、德语和法语。

评测

榜单热度与实际表现

HappyHorse-1.0 的讨论热度,主要来自实时榜单表现和盲测偏好的双重推动。

Artificial Analysis Video Arena

公开整理显示,它在文本/图像转视频无音频榜单位列第 1,有音频榜单位列第 2,图像转视频无音频也位列第 1,超过 Seedance 2.0、Kling 2.1、Ovi 1.1、LTX 2.3 等模型。

人类偏好胜率

盲测投票中,它相对 Ovi 1.1 和 LTX 2.3 都拿到了较强优势,说明它在用户感知层面的竞争力不只是纸面参数。

客观指标

公开对比重点强调了视觉质量、文本对齐、物理一致性,以及明显更低的唇同步词错率。

已知短板

目前人像和单人场景尤其强,但多角色和复杂场景仍被认为是相对薄弱的部分。

访问

现在怎么用、接下来怎么看

现阶段它既被包装成可以直接试用的云端体验,也被期待成为一个可自托管的完整开源栈。

云端 Demo

如 happyhorse.video、happy-horse.art 等页面被当作浏览器入口,支持文生/图生视频、高清下载和 API 式接入。

本地部署

完整开源预计会包含基础模型、蒸馏模型、超分模块和推理代码。早期更适合 H100 级 GPU,后续社区量化会进一步降低门槛。

下一步发布节奏

接下来重点看技术报告、内容溯源或水印机制、审计机制,以及社区对消费级显卡的适配进度。

为什么这件事重要

HappyHorse-1.0 的意义不只是在榜单上赢一轮,而是在真实用户偏好的场景里,把开源模型推进到与顶级闭源系统正面竞争的位置。如果这个趋势持续下去,闭源定价、社区微调节奏以及垂直视频生产链路的成本都会被重新定义。

© 2026 wan2.video