2026 年 4 月开源黑马

HappyHorse-1.0

一款几乎一夜之间冲上榜首的开源视频模型。

HappyHorse-1.0 也常写作 Happy Horse 1.0，是一个 15B 多模态文本/图像转视频模型，支持原生音频生成，人物肖像表现突出，并且明确强调以真实用户偏好而不是实验室指标为导向。

查看榜单表现查看访问方式

Arena 排名

无音频第 1，有音频第 2

在 Artificial Analysis Video Arena 中表现强势，压过多款主流闭源模型。

核心模型

15B 单流 Transformer

40 层结构，两端做模态投影，中间大部分参数共享。

生成速度

5 秒 256p 约 2 秒

通过 DMD-2 蒸馏将去噪压到 8 步，同时支持快速音视频联合生成。

发布方式

先匿名冲榜，再被社区破案

项目先以匿名身份上榜，随后很快被社区识别出团队背景。

背景

团队来源、技术脉络与产品定位

HappyHorse-1.0 被视为阿里淘天生态里非常务实的一次开源尝试，目标明显偏向电商、短视频和数字人等真实业务场景。

核心团队

由张迪领衔的淘天集团未来生活实验室推进。公开信息显示，该实验室承接自原 ATH-AI 创新体系，近一年高频产出顶会论文，聚焦多模态生产力方向。

合作方与前身项目

项目与 Sand.ai、上海智能计算研究所 GAIR Lab 存在合作背景，并延续了 2026 年 3 月开源的 daVinci-MagiHuman 技术路线。

它想解决什么

官方叙事强调真实用户感知优化、验证开源模型上限，并为后续商业化工作流做准备，而不是只做 benchmark 展示。

架构

15B 统一多模态生成栈

模型采用单流 self-attention 架构，而不是常见的 cross-attention 分支式设计，目的是统一条件建模并提升训练与推理稳定性。

40 层单流 Transformer

以纯 self-attention 为主干，将文本、视频、音频 token 放进同一序列中建模，不依赖显式 cross-attention。

Sandwich 模态布局

前 4 层和后 4 层负责 text/video/audio 的模态特定投影，中间 32 层参数共享。

高效推理路径

包括无显式 timestep 嵌入、Per-Head Gating、DMD-2 8 步蒸馏，以及 MagiCompiler 带来的端到端约 1.2 倍加速。

能力

HappyHorse-1.0 的核心卖点

当前公开讨论最集中的点，是它在音视频同步、唇同步、人像质感和多镜头连贯性上的综合表现。

文生视频 / 图生视频

既支持纯文本 prompt，也支持参考图像或 latent 条件输入，覆盖 5 到 12 秒时长和多种视频比例。

原生音频生成

对话、环境音和 Foley 效果在同一条生成链路中完成，减少后期单独配音的成本。

多镜头叙事

单条 prompt 就能驱动场景切换、镜头变化和角色一致性，还支持通过 LoRA 预设做风格控制。

多语言唇同步

公开资料提到原生支持 7 种语言，包括普通话、粤语、英语、日语、韩语、德语和法语。

评测

榜单热度与实际表现

HappyHorse-1.0 的讨论热度，主要来自实时榜单表现和盲测偏好的双重推动。

Artificial Analysis Video Arena

公开整理显示，它在文本/图像转视频无音频榜单位列第 1，有音频榜单位列第 2，图像转视频无音频也位列第 1，超过 Seedance 2.0、Kling 2.1、Ovi 1.1、LTX 2.3 等模型。

人类偏好胜率

盲测投票中，它相对 Ovi 1.1 和 LTX 2.3 都拿到了较强优势，说明它在用户感知层面的竞争力不只是纸面参数。

客观指标

公开对比重点强调了视觉质量、文本对齐、物理一致性，以及明显更低的唇同步词错率。

已知短板

目前人像和单人场景尤其强，但多角色和复杂场景仍被认为是相对薄弱的部分。

访问

现在怎么用、接下来怎么看

现阶段它既被包装成可以直接试用的云端体验，也被期待成为一个可自托管的完整开源栈。

云端 Demo

如 happyhorse.video、happy-horse.art 等页面被当作浏览器入口，支持文生/图生视频、高清下载和 API 式接入。

本地部署

完整开源预计会包含基础模型、蒸馏模型、超分模块和推理代码。早期更适合 H100 级 GPU，后续社区量化会进一步降低门槛。

下一步发布节奏

接下来重点看技术报告、内容溯源或水印机制、审计机制，以及社区对消费级显卡的适配进度。

为什么这件事重要

HappyHorse-1.0 的意义不只是在榜单上赢一轮，而是在真实用户偏好的场景里，把开源模型推进到与顶级闭源系统正面竞争的位置。如果这个趋势持续下去，闭源定价、社区微调节奏以及垂直视频生产链路的成本都会被重新定义。