2026年4月のオープンソース新星

HappyHorse-1.0

ほぼ一夜でランキング上位へ駆け上がった新しいオープン動画モデル。

HappyHorse-1.0 は Happy Horse 1.0 とも表記される 15B のマルチモーダルなテキスト/画像から動画への生成モデルで、ネイティブ音声生成、強いポートレート品質、研究室指標より実ユーザーの好みを重視する製品志向が特徴です。

Arena順位
音声なし1位、音声あり2位

Artificial Analysis Video Arena で強い結果を示し、複数の主要なクローズドモデルを上回りました。

コアモデル
15B 単一ストリーム Transformer

40 層構成で、両端にモダリティ別投影を置き、中核部分は共有スタックで構成されています。

生成速度
5秒・256pを約2秒

DMD-2 蒸留により 8 ステップまで圧縮し、高速な音声付き動画生成を実現しています。

公開の流れ
匿名で急浮上し、その後正体判明

最初にランキング上で話題になり、その後コミュニティによって背景が特定されました。

背景

チーム、系譜、プロダクトの狙い

HappyHorse-1.0 は Alibaba の Taotian エコシステムに連なる実務志向のオープンモデルとして語られ、EC、短尺動画、デジタルヒューマンといった実利用シーンを強く意識しています。

中心チーム

Taotian Group Future Life Lab の Zhang Di が主導。公開情報では旧 ATH-AI 系統を継ぐ研究ユニットとして説明され、多モーダル制作システムと高頻度な論文発表で知られています。

協力先と前身プロジェクト

Sand.ai や上海智能计算研究所の GAIR Lab との連携が言及されており、2026 年 3 月に公開された daVinci-MagiHuman の技術路線を継承していると見られます。

何を解決しようとしているか

公式の語り口は、実ユーザーの知覚最適化、オープンモデルの上限検証、そして将来の商用ワークフローへの接続を重視しており、単なるベンチマーク誇示に留まりません。

アーキテクチャ

15B の統合マルチモーダル生成スタック

このモデルは一般的な cross-attention 分岐ではなく、単一ストリームの self-attention 構造を採用し、条件表現の統合と学習・推論の安定化を狙っています。

40層の単一ストリーム Transformer

テキスト、動画、音声の token を同じ系列に入れて self-attention で処理し、明示的な cross-attention に依存しません。

Sandwich 型モダリティ配置

前 4 層と後 4 層が text/video/audio のモダリティ別投影を担い、中間 32 層は共有パラメータです。

高効率な推論経路

timestep 埋め込みの簡略化、Per-Head Gating、DMD-2 による 8 ステップ蒸留、MagiCompiler による約 1.2 倍の高速化が主要な効率化要素です。

能力

HappyHorse-1.0 の注目ポイント

公開情報で最も評価されているのは、音声と映像の同期、リップシンク品質、人物描写のリアリティ、そして複数ショットにわたる一貫性です。

テキストから動画 / 画像から動画

テキストだけの生成に加え、参照画像や latent 条件にも対応し、5〜12 秒の尺と複数アスペクト比をカバーします。

ネイティブ音声生成

セリフ、環境音、Foley を同一パイプラインで生成できるため、後処理での吹き替え負担を減らせます。

マルチショットの物語生成

単一の prompt でシーン遷移、ショット変更、顔・服装・体型の一貫性を維持しつつ、LoRA プリセットによるスタイル制御も可能です。

多言語リップシンク

公開資料では、中国語普通話、広東語、英語、日本語、韓国語、ドイツ語、フランス語を含む 7 言語対応が言及されています。

評価

ランキングの勢いと実測上の強み

HappyHorse-1.0 を巡る盛り上がりは、ランキング結果とブラインド評価の両方によって押し上げられています。

Artificial Analysis Video Arena

公開情報では、音声なしの text/image-to-video で 1 位、音声ありで 2 位、image-to-video 音声なしでも 1 位とされ、Seedance 2.0、Kling 2.1、Ovi 1.1、LTX 2.3 などを上回っています。

人間の好みでの勝率

ブラインド投票では Ovi 1.1 や LTX 2.3 に対して高い勝率が報告されており、内部指標だけでなく実ユーザー比較でも強いことを示しています。

客観指標

公開比較では画質、テキスト整合、物理的一貫性、そして競合より大幅に低いリップシンクの単語誤り率が強調されています。

既知の課題

ポートレートや単一人物の映像は特に強い一方、複数人物やカオスなシーンではまだ弱さが残ると見られています。

アクセス

どう試すか、次に何を待つか

このモデルは現時点でクラウド中心の体験として見せられつつ、完全なオープン自前運用スタックとしての公開も期待されています。

クラウドデモ

happyhorse.video や happy-horse.art といった公開ページは、テキスト/画像入力、HD 出力、API 的な統合を備えたブラウザ入口として紹介されています。

ローカル導入

正式なオープン公開では、ベースモデル、蒸留モデル、超解像モジュール、推論コードが含まれる見込みです。まずは H100 級 GPU が推奨され、後に量子化で要件が下がると期待されています。

次の公開予定

近い将来の更新として、技術レポート、透かしや来歴管理ツール、監査メカニズム、そしてコミュニティ適応の拡大が挙げられています。

なぜ重要なのか

HappyHorse-1.0 が注目されるのは、ユーザー嗜好ベースの比較領域でオープンモデルが上位クローズドモデルと正面から競えることを示したからです。この流れが続けば、価格設定、微調整や量子化のスピード、縦型動画制作スタックのコスト構造まで変えていく可能性があります。

© 2026 wan2.video