2026 年 4 月開源黑馬

HappyHorse-1.0

一款幾乎一夜之間衝上榜首的開源影片模型。

HappyHorse-1.0 也常寫作 Happy Horse 1.0,是一個 15B 多模態文字/圖像轉影片模型,支援原生音訊生成,人物肖像表現突出,並且明確強調以真實使用者偏好而不是實驗室指標為導向。

Arena 排名
無音訊第 1,有音訊第 2

在 Artificial Analysis Video Arena 中表現強勢,超過多款主流閉源模型。

核心模型
15B 單流 Transformer

40 層結構,兩端做模態投影,中間大部分參數共享。

生成速度
5 秒 256p 約 2 秒

透過 DMD-2 蒸餾將去噪壓到 8 步,同時支援快速音影片聯合生成。

發布方式
先匿名衝榜,再被社群破案

專案先以匿名身分上榜,之後很快被社群辨識出團隊背景。

背景

團隊來源、技術脈絡與產品定位

HappyHorse-1.0 被視為阿里淘天生態中相當務實的一次開源嘗試,目標明顯偏向電商、短影音與數位人等真實業務場景。

核心團隊

由張迪領銜的淘天集團未來生活實驗室推進。公開資訊顯示,該實驗室承接自原 ATH-AI 創新體系,近一年高頻產出頂會論文,聚焦多模態生產力方向。

合作方與前身專案

專案與 Sand.ai、上海智慧計算研究所 GAIR Lab 存在合作背景,並延續了 2026 年 3 月開源的 daVinci-MagiHuman 技術路線。

它想解決什麼

官方敘事強調真實使用者感知優化、驗證開源模型上限,並為後續商業化工作流做準備,而不只是做 benchmark 展示。

架構

15B 統一多模態生成堆疊

模型採用單流 self-attention 架構,而不是常見的 cross-attention 分支式設計,目的是統一條件建模並提升訓練與推理穩定性。

40 層單流 Transformer

以純 self-attention 為主幹,將文字、影片、音訊 token 放進同一序列中建模,不依賴顯式 cross-attention。

Sandwich 模態布局

前 4 層與後 4 層負責 text/video/audio 的模態特定投影,中間 32 層參數共享。

高效推理路徑

包括無顯式 timestep 嵌入、Per-Head Gating、DMD-2 8 步蒸餾,以及 MagiCompiler 帶來的端到端約 1.2 倍加速。

能力

HappyHorse-1.0 的核心賣點

目前公開討論最集中的點,是它在音影片同步、唇同步、人像質感與多鏡頭連貫性上的綜合表現。

文生影片 / 圖生影片

既支援純文字 prompt,也支援參考圖像或 latent 條件輸入,覆蓋 5 到 12 秒時長與多種影片比例。

原生音訊生成

對話、環境音與 Foley 效果在同一條生成鏈路中完成,減少後期單獨配音的成本。

多鏡頭敘事

單條 prompt 就能驅動場景切換、鏡頭變化與角色一致性,還支援透過 LoRA 預設做風格控制。

多語言唇同步

公開資料提到原生支援 7 種語言,包括普通話、粵語、英語、日語、韓語、德語與法語。

評測

榜單熱度與實際表現

HappyHorse-1.0 的討論熱度,主要來自即時榜單表現與盲測偏好的雙重推動。

Artificial Analysis Video Arena

公開整理顯示,它在文字/圖像轉影片無音訊榜單位列第 1,有音訊榜單位列第 2,圖像轉影片無音訊也位列第 1,超過 Seedance 2.0、Kling 2.1、Ovi 1.1、LTX 2.3 等模型。

人類偏好勝率

盲測投票中,它相對 Ovi 1.1 與 LTX 2.3 都拿到了較強優勢,說明它在使用者感知層面的競爭力不只是紙面參數。

客觀指標

公開對比重點強調了視覺品質、文字對齊、物理一致性,以及明顯更低的唇同步詞錯率。

已知短板

目前人像與單人場景尤其強,但多角色與複雜場景仍被認為是相對薄弱的部分。

使用

現在怎麼用、接下來怎麼看

現階段它既被包裝成可以直接試用的雲端體驗,也被期待成為一套可自託管的完整開源堆疊。

雲端 Demo

如 happyhorse.video、happy-horse.art 等頁面被當作瀏覽器入口,支援文生/圖生影片、高清下載與 API 式接入。

本地部署

完整開源預計會包含基礎模型、蒸餾模型、超分模組與推理程式碼。早期更適合 H100 級 GPU,後續社群量化會進一步降低門檻。

下一步發布節奏

接下來重點看技術報告、內容溯源或浮水印機制、審計機制,以及社群對消費級顯卡的適配進度。

為什麼這件事重要

HappyHorse-1.0 的意義不只是在榜單上贏一輪,而是在真實使用者偏好的場景裡,把開源模型推進到與頂級閉源系統正面競爭的位置。如果這個趨勢持續下去,閉源定價、社群微調節奏以及垂直影片生產鏈路的成本都會被重新定義。

© 2026 wan2.video