在 Artificial Analysis Video Arena 中表現強勢,超過多款主流閉源模型。
HappyHorse-1.0
一款幾乎一夜之間衝上榜首的開源影片模型。
HappyHorse-1.0 也常寫作 Happy Horse 1.0,是一個 15B 多模態文字/圖像轉影片模型,支援原生音訊生成,人物肖像表現突出,並且明確強調以真實使用者偏好而不是實驗室指標為導向。
40 層結構,兩端做模態投影,中間大部分參數共享。
透過 DMD-2 蒸餾將去噪壓到 8 步,同時支援快速音影片聯合生成。
專案先以匿名身分上榜,之後很快被社群辨識出團隊背景。
團隊來源、技術脈絡與產品定位
HappyHorse-1.0 被視為阿里淘天生態中相當務實的一次開源嘗試,目標明顯偏向電商、短影音與數位人等真實業務場景。
核心團隊
由張迪領銜的淘天集團未來生活實驗室推進。公開資訊顯示,該實驗室承接自原 ATH-AI 創新體系,近一年高頻產出頂會論文,聚焦多模態生產力方向。
合作方與前身專案
專案與 Sand.ai、上海智慧計算研究所 GAIR Lab 存在合作背景,並延續了 2026 年 3 月開源的 daVinci-MagiHuman 技術路線。
它想解決什麼
官方敘事強調真實使用者感知優化、驗證開源模型上限,並為後續商業化工作流做準備,而不只是做 benchmark 展示。
15B 統一多模態生成堆疊
模型採用單流 self-attention 架構,而不是常見的 cross-attention 分支式設計,目的是統一條件建模並提升訓練與推理穩定性。
40 層單流 Transformer
以純 self-attention 為主幹,將文字、影片、音訊 token 放進同一序列中建模,不依賴顯式 cross-attention。
Sandwich 模態布局
前 4 層與後 4 層負責 text/video/audio 的模態特定投影,中間 32 層參數共享。
高效推理路徑
包括無顯式 timestep 嵌入、Per-Head Gating、DMD-2 8 步蒸餾,以及 MagiCompiler 帶來的端到端約 1.2 倍加速。
HappyHorse-1.0 的核心賣點
目前公開討論最集中的點,是它在音影片同步、唇同步、人像質感與多鏡頭連貫性上的綜合表現。
文生影片 / 圖生影片
既支援純文字 prompt,也支援參考圖像或 latent 條件輸入,覆蓋 5 到 12 秒時長與多種影片比例。
原生音訊生成
對話、環境音與 Foley 效果在同一條生成鏈路中完成,減少後期單獨配音的成本。
多鏡頭敘事
單條 prompt 就能驅動場景切換、鏡頭變化與角色一致性,還支援透過 LoRA 預設做風格控制。
多語言唇同步
公開資料提到原生支援 7 種語言,包括普通話、粵語、英語、日語、韓語、德語與法語。
榜單熱度與實際表現
HappyHorse-1.0 的討論熱度,主要來自即時榜單表現與盲測偏好的雙重推動。
Artificial Analysis Video Arena
公開整理顯示,它在文字/圖像轉影片無音訊榜單位列第 1,有音訊榜單位列第 2,圖像轉影片無音訊也位列第 1,超過 Seedance 2.0、Kling 2.1、Ovi 1.1、LTX 2.3 等模型。
人類偏好勝率
盲測投票中,它相對 Ovi 1.1 與 LTX 2.3 都拿到了較強優勢,說明它在使用者感知層面的競爭力不只是紙面參數。
客觀指標
公開對比重點強調了視覺品質、文字對齊、物理一致性,以及明顯更低的唇同步詞錯率。
已知短板
目前人像與單人場景尤其強,但多角色與複雜場景仍被認為是相對薄弱的部分。
現在怎麼用、接下來怎麼看
現階段它既被包裝成可以直接試用的雲端體驗,也被期待成為一套可自託管的完整開源堆疊。
雲端 Demo
如 happyhorse.video、happy-horse.art 等頁面被當作瀏覽器入口,支援文生/圖生影片、高清下載與 API 式接入。
本地部署
完整開源預計會包含基礎模型、蒸餾模型、超分模組與推理程式碼。早期更適合 H100 級 GPU,後續社群量化會進一步降低門檻。
下一步發布節奏
接下來重點看技術報告、內容溯源或浮水印機制、審計機制,以及社群對消費級顯卡的適配進度。
為什麼這件事重要
HappyHorse-1.0 的意義不只是在榜單上贏一輪,而是在真實使用者偏好的場景裡,把開源模型推進到與頂級閉源系統正面競爭的位置。如果這個趨勢持續下去,閉源定價、社群微調節奏以及垂直影片生產鏈路的成本都會被重新定義。