Starke Leistung in der Artificial Analysis Video Arena, vor mehreren bekannten Closed-Source-Modellen.
HappyHorse-1.0
Ein neues offenes Videomodell, das fast über Nacht an die Spitze der Rangliste sprang.
HappyHorse-1.0, auch als Happy Horse 1.0 geschrieben, ist ein 15B-Multimodalmodell für Text/Bild zu Video mit nativer Audiogenerierung, starker Porträtqualität und einer Produktausrichtung, die sich stärker an realen Nutzerpräferenzen als an reinen Labormetriken orientiert.
40 Schichten mit modalitiespezifischen Projektionen an beiden Enden und einem gemeinsamen Mittelteil.
Mit DMD-2 auf 8 Denoising-Schritte destilliert und für schnelle Audio-Video-Synthese ausgelegt.
Das Projekt tauchte zuerst in Rankings auf und wurde erst danach von der Community identifiziert.
Team, Herkunft und Produktabsicht
HappyHorse-1.0 wird als pragmatischer Open-Model-Versuch im Umfeld von Alibabas Taotian-Ökosystem beschrieben, mit klarer Ausrichtung auf E-Commerce, Kurzvideo und digitale Menschen.
Kernteam
Geleitet von Zhang Di im Taotian Group Future Life Lab. Das Labor gilt als Weiterentwicklung der früheren ATH-AI-Einheit mit schnellem Paper-Output und Fokus auf multimodale Produktionssysteme.
Partner und Vorgängerprojekt
Es gibt Hinweise auf Zusammenarbeit mit Sand.ai und dem GAIR Lab des Shanghai Institute for Intelligent Computing sowie eine technische Linie zum im März 2026 geöffneten daVinci-MagiHuman.
Welches Problem gelöst werden soll
Die offizielle Darstellung betont Optimierung für reale Nutzerwahrnehmung, das Austesten der Obergrenze offener Modelle und die Vorbereitung kommerzieller Workflows statt bloßer Benchmark-Demos.
Einheitlicher 15B-Multimodal-Stack
Das Modell setzt auf eine Single-Stream-Self-Attention-Architektur statt auf das übliche verzweigte Cross-Attention-Design, um Konditionierung zu vereinheitlichen und Training sowie Inferenz zu stabilisieren.
40-lagiger Single-Stream Transformer
Text-, Video- und Audio-Token werden in einer gemeinsamen Sequenz per Self-Attention modelliert, ohne explizite Cross-Attention.
Sandwich-Modallayout
Die ersten 4 und letzten 4 Schichten übernehmen modalspezifische Projektionen für text/video/audio, die mittleren 32 Schichten teilen sich die Parameter.
Effizienter Inferenzpfad
Wichtige Bausteine sind zustandsbasierte Inferenz ohne expliziten Timestep, Per-Head Gating, DMD-2-Destillation auf 8 Schritte und MagiCompiler mit rund 1,2x End-to-End-Beschleunigung.
Was HappyHorse-1.0 heraushebt
Die stärksten öffentlichen Reaktionen beziehen sich auf synchronisierte Audio-Video-Generierung, Lip-Sync-Qualität, Porträtrealismus und kohärente Multi-Shot-Ausgaben.
Text-zu-Video und Bild-zu-Video
Unterstützt reine Prompt-Generierung ebenso wie Referenzbild- oder latentbasierte Konditionierung mit 5 bis 12 Sekunden langen Clips und mehreren Seitenverhältnissen.
Native Audiogenerierung
Dialog, Umgebungsgeräusche und Foley werden in derselben Pipeline erzeugt, wodurch nachträgliches Dubbing reduziert wird.
Multi-Shot-Storytelling
Ein einzelner Prompt kann Szenenwechsel, Shot-Übergänge und Figurenkonsistenz über Gesicht, Kleidung und Körperform steuern, ergänzt durch Stilkontrolle via LoRA-Presets.
Mehrsprachiger Lip-Sync
Öffentliche Materialien nennen native Unterstützung für 7 Sprachen, darunter Mandarin, Kantonesisch, Englisch, Japanisch, Koreanisch, Deutsch und Französisch.
Leaderboard-Dynamik und gemessene Stärken
Die Diskussion um HappyHorse-1.0 wird sowohl von Ranking-Ergebnissen als auch von qualitativen Reaktionen aus Blindtests angetrieben.
Artificial Analysis Video Arena
Öffentlich wurde berichtet, dass das Modell Platz 1 für Text/Bild-zu-Video ohne Audio, Platz 2 mit Audio und Platz 1 für Bild-zu-Video ohne Audio belegt und damit Seedance 2.0, Kling 2.1, Ovi 1.1 und LTX 2.3 übertrifft.
Menschliche Präferenz
Blindabstimmungen zeigen eine starke Siegquote gegenüber Ovi 1.1 und LTX 2.3, was unterstreicht, dass das Modell auch in nutzerorientierten Vergleichen gut abschneidet.
Objektive Indikatoren
Öffentliche Vergleiche heben Bildqualität, Texttreue, physikalische Konsistenz und vor allem eine deutlich niedrigere Lip-Sync-Fehlerrate als bei mehreren Wettbewerbern hervor.
Bekannte Einschränkungen
Porträt- und Einzelpersonen-Videos wirken besonders stark, während komplexere Szenen mit mehreren Figuren weiterhin als schwächer beschrieben werden.
Wie es genutzt wird
Das Modell wird sowohl als sofort nutzbare Cloud-Erfahrung als auch als offen selbst hostbarer Stack positioniert, sobald das vollständige Repository veröffentlicht ist.
Cloud-Demos
Öffentliche Seiten wie happyhorse.video und happy-horse.art werden als browserbasierte Einstiegspunkte mit Text-/Bildeingabe, HD-Export und API-artiger Integration dargestellt.
Lokale Bereitstellung
Die offene Veröffentlichung soll Basismodell, destilliertes Modell, Super-Resolution-Modul und Inferenzcode enthalten. Zunächst werden GPUs der H100-Klasse empfohlen, später dürfte Community-Quantisierung die Hürde senken.
Nächster erwarteter Schritt
Kurzfristig werden technischer Bericht, Watermark- oder Herkunftswerkzeuge, Audit-Mechanismen und breitere Community-Anpassung erwartet.
Warum das wichtig ist
HappyHorse-1.0 ist bemerkenswert, weil es ein offenes Modell in direkte Konkurrenz zu führenden Closed-Source-Systemen in einer nutzerpräferenzbasierten Arena bringt. Wenn dieses Momentum anhält, wird es Preise unter Druck setzen, Fine-Tuning und Quantisierung beschleunigen und vertikale Videoproduktions-Stacks günstiger machen.