Percée open source d'avril 2026

HappyHorse-1.0

Un nouveau modèle vidéo ouvert qui a bondi vers le sommet du classement presque du jour au lendemain.

Également écrit Happy Horse 1.0, HappyHorse-1.0 est un modèle multimodal 15B de texte/image vers vidéo avec génération audio native, excellente qualité sur les portraits et une orientation produit centrée sur la préférence réelle des utilisateurs plutôt que sur les seules métriques de laboratoire.

Voir le classement Voir les accès

Classement Arena

#1 sans audio, #2 avec audio

Très bonne performance dans l'Artificial Analysis Video Arena, devant plusieurs modèles fermés majeurs.

Modèle central

Transformer single-stream 15B

40 couches avec des projections spécifiques aux modalités aux deux extrémités et une pile centrale partagée.

Vitesse de génération

5 s en 256p en environ 2 s

Distillé avec DMD-2 pour fonctionner en 8 étapes de débruitage, avec synthèse audio-vidéo rapide.

Style de sortie

Montée anonyme puis révélation

Le projet est d'abord apparu dans les classements avant d'être identifié par la communauté.

Contexte

Équipe, filiation et intention produit

HappyHorse-1.0 est présenté comme un effort open source pragmatique lié à l'écosystème Taotian d'Alibaba, avec un biais clair vers l'e-commerce, la vidéo courte et les cas d'usage de digital human.

Équipe principale

Piloté par Zhang Di au Taotian Group Future Life Lab. Le laboratoire est décrit comme l'évolution de l'ancienne unité ATH-AI, avec une forte cadence de publications et un focus sur les systèmes multimodaux de production.

Partenaires et projet précédent

Le projet est associé à Sand.ai et au GAIR Lab de l'Institut de calcul intelligent de Shanghai, et prolonge la trajectoire technique de daVinci-MagiHuman, ouvert en mars 2026.

Quel problème il veut résoudre

Le discours officiel insiste sur l'optimisation pour la perception réelle des utilisateurs, la validation du plafond des modèles ouverts et la préparation de workflows commerciaux, pas seulement sur des démonstrations benchmark.

Architecture

Une pile générative multimodale unifiée de 15B

Le modèle adopte une architecture self-attention single-stream au lieu de l'approche branchée classique en cross-attention, afin d'unifier le conditionnement et d'améliorer la stabilité en entraînement comme en inférence.

Transformer single-stream à 40 couches

Les tokens texte, vidéo et audio sont modélisés dans une seule séquence via self-attention, sans dépendre d'une cross-attention explicite.

Disposition multimodale en sandwich

Les 4 premières et 4 dernières couches gèrent les projections spécifiques à text/video/audio, tandis que les 32 couches centrales partagent les paramètres.

Chemin d'inférence efficace

Les principaux leviers sont l'inférence sans timestep explicite, le Per-Head Gating, la distillation DMD-2 en 8 étapes et MagiCompiler avec environ 1,2x d'accélération de bout en bout.

Capacités

Ce qui distingue HappyHorse-1.0

Les réactions publiques soulignent surtout la génération audio-vidéo synchronisée, la qualité du lip sync, le réalisme des portraits et la cohérence sur plusieurs plans.

Texte vers vidéo et image vers vidéo

Le modèle prend en charge la génération par prompt seul ainsi que le conditionnement par image de référence ou latent, avec des clips de 5 à 12 secondes et plusieurs ratios.

Génération audio native

Dialogue, ambiance et Foley sont générés dans la même pipeline, ce qui réduit le besoin de doublage en post-production.

Narration multi-shot

Un seul prompt peut piloter les transitions de scène, les changements de plan et la continuité du personnage sur le visage, les vêtements et la silhouette, avec des points d'accroche de style comme les presets LoRA.

Lip sync multilingue

Les documents publics mentionnent une prise en charge native de 7 langues, dont le mandarin, le cantonais, l'anglais, le japonais, le coréen, l'allemand et le français.

Évaluation

Dynamique de classement et points forts mesurés

La discussion autour de HappyHorse-1.0 est portée à la fois par les résultats de classement et par les réactions qualitatives issues des tests à l'aveugle.

Artificial Analysis Video Arena

Les informations publiques le donnent #1 en texte/image vers vidéo sans audio, #2 avec audio et #1 en image vers vidéo sans audio, devant Seedance 2.0, Kling 2.1, Ovi 1.1 et LTX 2.3.

Préférence humaine

Les votes à l'aveugle montrent un bon taux de victoire face à Ovi 1.1 et LTX 2.3, ce qui confirme que le modèle performe bien dans des comparaisons orientées utilisateur.

Indicateurs objectifs

Les comparaisons publiques mettent en avant la qualité visuelle, l'alignement au texte, la cohérence physique et surtout un taux d'erreur de lip sync nettement plus bas que chez plusieurs concurrents.

Limites connues

Les vidéos de portrait et à sujet unique semblent particulièrement solides, tandis que les scènes plus chaotiques ou multi-personnages restent considérées comme plus faibles.

Accès

Comment les gens l'essaient

Le modèle est positionné à la fois comme une expérience cloud prête à l'emploi et comme une pile ouverte auto-hébergeable une fois que le dépôt complet sera disponible.

Démos cloud

Des pages publiques comme happyhorse.video et happy-horse.art sont présentées comme des points d'entrée web avec saisie texte/image, export HD et intégration de type API.

Déploiement local

La sortie ouverte devrait inclure le modèle de base, le modèle distillé, un module de super-résolution et le code d'inférence. Des GPU de classe H100 sont d'abord recommandés, avec une quantification communautaire attendue pour réduire la barrière.

Prochaine étape attendue

À court terme, la feuille de route mentionne un rapport technique, des outils de watermark ou de provenance, des mécanismes d'audit et une adaptation communautaire plus large.

Pourquoi c'est important

HappyHorse-1.0 est important parce qu'il met un modèle ouvert en concurrence directe avec les meilleurs systèmes fermés dans une arène guidée par la préférence utilisateur. Si cette dynamique se maintient, elle fera pression sur les prix, accélérera le fine-tuning et la quantification, et réduira le coût des piles de production vidéo verticale.