Revelación open source de abril de 2026

HappyHorse-1.0

Un nuevo modelo abierto de video que saltó a la cima del ranking casi de la noche a la mañana.

También escrito como Happy Horse 1.0, HappyHorse-1.0 es un modelo multimodal de 15B para texto/imagen a video con generación nativa de audio, gran calidad en retratos y una dirección de producto centrada en la preferencia real de los usuarios más que en métricas de laboratorio.

Ver ranking Ver opciones de acceso

Ranking Arena

#1 sin audio, #2 con audio

Buen desempeño en Artificial Analysis Video Arena, por delante de varios modelos cerrados populares.

Modelo central

Transformer de 15B single-stream

Tiene 40 capas, proyecciones específicas por modalidad en los extremos y una pila compartida en el centro.

Velocidad de generación

5 s a 256p en unos 2 s

Usa destilación DMD-2 para ejecutar en 8 pasos de denoising con síntesis rápida de audio y video.

Estilo de lanzamiento

Subida anónima y luego revelación

El proyecto apareció primero en los rankings y luego la comunidad identificó su procedencia.

Contexto

Equipo, linaje e intención de producto

HappyHorse-1.0 se presenta como un esfuerzo abierto y pragmático ligado al ecosistema Taotian de Alibaba, con una orientación clara hacia ecommerce, video corto y casos de uso con humanos digitales.

Equipo principal

Está liderado por Zhang Di en Taotian Group Future Life Lab. El laboratorio se describe como una evolución de la antigua unidad ATH-AI, con alta producción de papers y foco en sistemas multimodales de producción.

Socios y proyecto previo

Se mencionan vínculos con Sand.ai y con GAIR Lab del Instituto de Computación Inteligente de Shanghái, además de continuidad con la línea técnica de daVinci-MagiHuman, abierto en marzo de 2026.

Qué intenta resolver

La narrativa oficial enfatiza optimización para la percepción real de los usuarios, validación del techo de los modelos abiertos y preparación para flujos comerciales, no solo demostraciones de benchmark.

Arquitectura

Pila unificada multimodal de 15B

El modelo adopta una arquitectura single-stream self-attention en lugar del diseño ramificado típico con cross-attention, con el objetivo de unificar el condicionamiento y mejorar la estabilidad de entrenamiento e inferencia.

Transformer single-stream de 40 capas

Texto, video y audio se modelan como tokens dentro de una sola secuencia mediante self-attention, sin depender de cross-attention explícita.

Distribución multimodal tipo sandwich

Las primeras 4 y las últimas 4 capas hacen proyecciones específicas para text/video/audio, mientras que las 32 capas centrales comparten parámetros.

Ruta de inferencia eficiente

Incluye inferencia sin timestep explícito, Per-Head Gating, destilación DMD-2 a 8 pasos y MagiCompiler, con una aceleración de alrededor de 1,2x de extremo a extremo.

Capacidades

Qué hace destacar a HappyHorse-1.0

Las reacciones públicas se centran especialmente en la generación sincronizada de audio y video, la calidad de lip sync, el realismo de retratos y la coherencia entre múltiples tomas.

Texto a video e imagen a video

Soporta generación solo con prompt, así como condicionamiento con imagen de referencia o latente, cubriendo clips de 5 a 12 segundos y múltiples relaciones de aspecto.

Generación nativa de audio

Diálogo, sonido ambiente y Foley se generan en la misma pipeline, reduciendo la necesidad de doblaje posterior.

Narrativa multi-shot

Un solo prompt puede controlar transiciones de escena, cambios de plano y continuidad del personaje en rostro, ropa y cuerpo, con opciones de control de estilo como presets LoRA.

Lip sync multilingüe

Los materiales públicos mencionan soporte nativo para 7 idiomas, incluidos mandarín, cantonés, inglés, japonés, coreano, alemán y francés.

Evaluación

Impulso en el leaderboard y fortalezas medidas

La conversación pública sobre HappyHorse-1.0 está impulsada tanto por los resultados en ranking como por las reacciones cualitativas en pruebas ciegas.

Artificial Analysis Video Arena

Los reportes públicos lo sitúan como #1 en texto/imagen a video sin audio, #2 con audio y #1 en imagen a video sin audio, por delante de Seedance 2.0, Kling 2.1, Ovi 1.1 y LTX 2.3.

Preferencia humana

Las votaciones a ciegas muestran una fuerte tasa de victoria frente a Ovi 1.1 y LTX 2.3, lo que refuerza que rinde bien en comparaciones reales orientadas al usuario.

Indicadores objetivos

Las comparaciones públicas destacan calidad visual, alineación con el texto, consistencia física y, especialmente, una tasa de error en lip sync mucho más baja que la de varios competidores.

Limitaciones conocidas

Los videos de retrato y con un solo sujeto se ven especialmente sólidos, mientras que las escenas más caóticas o con múltiples personajes siguen considerándose un punto más débil.

Acceso

Cómo lo está probando la gente

El modelo se presenta tanto como una experiencia en la nube lista para usar como una pila abierta autoalojable una vez que llegue el repositorio completo.

Demos en la nube

Sitios públicos como happyhorse.video y happy-horse.art se muestran como puntos de entrada en navegador con entrada de texto/imagen, exportación HD e integración tipo API.

Despliegue local

Se espera que la liberación abierta incluya modelo base, modelo destilado, módulo de superresolución y código de inferencia. Al principio se recomiendan GPUs clase H100, con cuantización comunitaria reduciendo luego la barrera.

Próxima entrega esperada

La hoja de ruta a corto plazo menciona informe técnico, herramientas de watermark o procedencia, mecanismos de auditoría y una adaptación comunitaria cada vez mayor.

Por qué importa

HappyHorse-1.0 importa porque lleva a un modelo abierto a competir directamente con los mejores sistemas cerrados en un entorno guiado por preferencia del usuario. Si ese impulso se mantiene, presionará precios, acelerará el fine-tuning y la cuantización, y abaratará las pilas de producción de video vertical.