Buen desempeño en Artificial Analysis Video Arena, por delante de varios modelos cerrados populares.
HappyHorse-1.0
Un nuevo modelo abierto de video que saltó a la cima del ranking casi de la noche a la mañana.
También escrito como Happy Horse 1.0, HappyHorse-1.0 es un modelo multimodal de 15B para texto/imagen a video con generación nativa de audio, gran calidad en retratos y una dirección de producto centrada en la preferencia real de los usuarios más que en métricas de laboratorio.
Tiene 40 capas, proyecciones específicas por modalidad en los extremos y una pila compartida en el centro.
Usa destilación DMD-2 para ejecutar en 8 pasos de denoising con síntesis rápida de audio y video.
El proyecto apareció primero en los rankings y luego la comunidad identificó su procedencia.
Equipo, linaje e intención de producto
HappyHorse-1.0 se presenta como un esfuerzo abierto y pragmático ligado al ecosistema Taotian de Alibaba, con una orientación clara hacia ecommerce, video corto y casos de uso con humanos digitales.
Equipo principal
Está liderado por Zhang Di en Taotian Group Future Life Lab. El laboratorio se describe como una evolución de la antigua unidad ATH-AI, con alta producción de papers y foco en sistemas multimodales de producción.
Socios y proyecto previo
Se mencionan vínculos con Sand.ai y con GAIR Lab del Instituto de Computación Inteligente de Shanghái, además de continuidad con la línea técnica de daVinci-MagiHuman, abierto en marzo de 2026.
Qué intenta resolver
La narrativa oficial enfatiza optimización para la percepción real de los usuarios, validación del techo de los modelos abiertos y preparación para flujos comerciales, no solo demostraciones de benchmark.
Pila unificada multimodal de 15B
El modelo adopta una arquitectura single-stream self-attention en lugar del diseño ramificado típico con cross-attention, con el objetivo de unificar el condicionamiento y mejorar la estabilidad de entrenamiento e inferencia.
Transformer single-stream de 40 capas
Texto, video y audio se modelan como tokens dentro de una sola secuencia mediante self-attention, sin depender de cross-attention explícita.
Distribución multimodal tipo sandwich
Las primeras 4 y las últimas 4 capas hacen proyecciones específicas para text/video/audio, mientras que las 32 capas centrales comparten parámetros.
Ruta de inferencia eficiente
Incluye inferencia sin timestep explícito, Per-Head Gating, destilación DMD-2 a 8 pasos y MagiCompiler, con una aceleración de alrededor de 1,2x de extremo a extremo.
Qué hace destacar a HappyHorse-1.0
Las reacciones públicas se centran especialmente en la generación sincronizada de audio y video, la calidad de lip sync, el realismo de retratos y la coherencia entre múltiples tomas.
Texto a video e imagen a video
Soporta generación solo con prompt, así como condicionamiento con imagen de referencia o latente, cubriendo clips de 5 a 12 segundos y múltiples relaciones de aspecto.
Generación nativa de audio
Diálogo, sonido ambiente y Foley se generan en la misma pipeline, reduciendo la necesidad de doblaje posterior.
Narrativa multi-shot
Un solo prompt puede controlar transiciones de escena, cambios de plano y continuidad del personaje en rostro, ropa y cuerpo, con opciones de control de estilo como presets LoRA.
Lip sync multilingüe
Los materiales públicos mencionan soporte nativo para 7 idiomas, incluidos mandarín, cantonés, inglés, japonés, coreano, alemán y francés.
Impulso en el leaderboard y fortalezas medidas
La conversación pública sobre HappyHorse-1.0 está impulsada tanto por los resultados en ranking como por las reacciones cualitativas en pruebas ciegas.
Artificial Analysis Video Arena
Los reportes públicos lo sitúan como #1 en texto/imagen a video sin audio, #2 con audio y #1 en imagen a video sin audio, por delante de Seedance 2.0, Kling 2.1, Ovi 1.1 y LTX 2.3.
Preferencia humana
Las votaciones a ciegas muestran una fuerte tasa de victoria frente a Ovi 1.1 y LTX 2.3, lo que refuerza que rinde bien en comparaciones reales orientadas al usuario.
Indicadores objetivos
Las comparaciones públicas destacan calidad visual, alineación con el texto, consistencia física y, especialmente, una tasa de error en lip sync mucho más baja que la de varios competidores.
Limitaciones conocidas
Los videos de retrato y con un solo sujeto se ven especialmente sólidos, mientras que las escenas más caóticas o con múltiples personajes siguen considerándose un punto más débil.
Cómo lo está probando la gente
El modelo se presenta tanto como una experiencia en la nube lista para usar como una pila abierta autoalojable una vez que llegue el repositorio completo.
Demos en la nube
Sitios públicos como happyhorse.video y happy-horse.art se muestran como puntos de entrada en navegador con entrada de texto/imagen, exportación HD e integración tipo API.
Despliegue local
Se espera que la liberación abierta incluya modelo base, modelo destilado, módulo de superresolución y código de inferencia. Al principio se recomiendan GPUs clase H100, con cuantización comunitaria reduciendo luego la barrera.
Próxima entrega esperada
La hoja de ruta a corto plazo menciona informe técnico, herramientas de watermark o procedencia, mecanismos de auditoría y una adaptación comunitaria cada vez mayor.
Por qué importa
HappyHorse-1.0 importa porque lleva a un modelo abierto a competir directamente con los mejores sistemas cerrados en un entorno guiado por preferencia del usuario. Si ese impulso se mantiene, presionará precios, acelerará el fine-tuning y la cuantización, y abaratará las pilas de producción de video vertical.