Très bonne performance dans l'Artificial Analysis Video Arena, devant plusieurs modèles fermés majeurs.
HappyHorse-1.0
Un nouveau modèle vidéo ouvert qui a bondi vers le sommet du classement presque du jour au lendemain.
Également écrit Happy Horse 1.0, HappyHorse-1.0 est un modèle multimodal 15B de texte/image vers vidéo avec génération audio native, excellente qualité sur les portraits et une orientation produit centrée sur la préférence réelle des utilisateurs plutôt que sur les seules métriques de laboratoire.
40 couches avec des projections spécifiques aux modalités aux deux extrémités et une pile centrale partagée.
Distillé avec DMD-2 pour fonctionner en 8 étapes de débruitage, avec synthèse audio-vidéo rapide.
Le projet est d'abord apparu dans les classements avant d'être identifié par la communauté.
Équipe, filiation et intention produit
HappyHorse-1.0 est présenté comme un effort open source pragmatique lié à l'écosystème Taotian d'Alibaba, avec un biais clair vers l'e-commerce, la vidéo courte et les cas d'usage de digital human.
Équipe principale
Piloté par Zhang Di au Taotian Group Future Life Lab. Le laboratoire est décrit comme l'évolution de l'ancienne unité ATH-AI, avec une forte cadence de publications et un focus sur les systèmes multimodaux de production.
Partenaires et projet précédent
Le projet est associé à Sand.ai et au GAIR Lab de l'Institut de calcul intelligent de Shanghai, et prolonge la trajectoire technique de daVinci-MagiHuman, ouvert en mars 2026.
Quel problème il veut résoudre
Le discours officiel insiste sur l'optimisation pour la perception réelle des utilisateurs, la validation du plafond des modèles ouverts et la préparation de workflows commerciaux, pas seulement sur des démonstrations benchmark.
Une pile générative multimodale unifiée de 15B
Le modèle adopte une architecture self-attention single-stream au lieu de l'approche branchée classique en cross-attention, afin d'unifier le conditionnement et d'améliorer la stabilité en entraînement comme en inférence.
Transformer single-stream à 40 couches
Les tokens texte, vidéo et audio sont modélisés dans une seule séquence via self-attention, sans dépendre d'une cross-attention explicite.
Disposition multimodale en sandwich
Les 4 premières et 4 dernières couches gèrent les projections spécifiques à text/video/audio, tandis que les 32 couches centrales partagent les paramètres.
Chemin d'inférence efficace
Les principaux leviers sont l'inférence sans timestep explicite, le Per-Head Gating, la distillation DMD-2 en 8 étapes et MagiCompiler avec environ 1,2x d'accélération de bout en bout.
Ce qui distingue HappyHorse-1.0
Les réactions publiques soulignent surtout la génération audio-vidéo synchronisée, la qualité du lip sync, le réalisme des portraits et la cohérence sur plusieurs plans.
Texte vers vidéo et image vers vidéo
Le modèle prend en charge la génération par prompt seul ainsi que le conditionnement par image de référence ou latent, avec des clips de 5 à 12 secondes et plusieurs ratios.
Génération audio native
Dialogue, ambiance et Foley sont générés dans la même pipeline, ce qui réduit le besoin de doublage en post-production.
Narration multi-shot
Un seul prompt peut piloter les transitions de scène, les changements de plan et la continuité du personnage sur le visage, les vêtements et la silhouette, avec des points d'accroche de style comme les presets LoRA.
Lip sync multilingue
Les documents publics mentionnent une prise en charge native de 7 langues, dont le mandarin, le cantonais, l'anglais, le japonais, le coréen, l'allemand et le français.
Dynamique de classement et points forts mesurés
La discussion autour de HappyHorse-1.0 est portée à la fois par les résultats de classement et par les réactions qualitatives issues des tests à l'aveugle.
Artificial Analysis Video Arena
Les informations publiques le donnent #1 en texte/image vers vidéo sans audio, #2 avec audio et #1 en image vers vidéo sans audio, devant Seedance 2.0, Kling 2.1, Ovi 1.1 et LTX 2.3.
Préférence humaine
Les votes à l'aveugle montrent un bon taux de victoire face à Ovi 1.1 et LTX 2.3, ce qui confirme que le modèle performe bien dans des comparaisons orientées utilisateur.
Indicateurs objectifs
Les comparaisons publiques mettent en avant la qualité visuelle, l'alignement au texte, la cohérence physique et surtout un taux d'erreur de lip sync nettement plus bas que chez plusieurs concurrents.
Limites connues
Les vidéos de portrait et à sujet unique semblent particulièrement solides, tandis que les scènes plus chaotiques ou multi-personnages restent considérées comme plus faibles.
Comment les gens l'essaient
Le modèle est positionné à la fois comme une expérience cloud prête à l'emploi et comme une pile ouverte auto-hébergeable une fois que le dépôt complet sera disponible.
Démos cloud
Des pages publiques comme happyhorse.video et happy-horse.art sont présentées comme des points d'entrée web avec saisie texte/image, export HD et intégration de type API.
Déploiement local
La sortie ouverte devrait inclure le modèle de base, le modèle distillé, un module de super-résolution et le code d'inférence. Des GPU de classe H100 sont d'abord recommandés, avec une quantification communautaire attendue pour réduire la barrière.
Prochaine étape attendue
À court terme, la feuille de route mentionne un rapport technique, des outils de watermark ou de provenance, des mécanismes d'audit et une adaptation communautaire plus large.
Pourquoi c'est important
HappyHorse-1.0 est important parce qu'il met un modèle ouvert en concurrence directe avec les meilleurs systèmes fermés dans une arène guidée par la préférence utilisateur. Si cette dynamique se maintient, elle fera pression sur les prix, accélérera le fine-tuning et la quantification, et réduira le coût des piles de production vidéo verticale.