Destaque open source de abril de 2026

HappyHorse-1.0

Um novo modelo aberto de vídeo que saltou para o topo do ranking quase da noite para o dia.

Também escrito como Happy Horse 1.0, o HappyHorse-1.0 é um modelo multimodal de 15B para texto/imagem em vídeo, com geração nativa de áudio, forte qualidade em retratos e uma direção de produto centrada na preferência real dos usuários, não apenas em métricas de laboratório.

Ver ranking Ver opções de acesso

Posição no Arena

#1 sem áudio, #2 com áudio

Desempenho forte no Artificial Analysis Video Arena, à frente de vários modelos fechados populares.

Modelo central

Transformer single-stream de 15B

Estrutura com 40 camadas, projeções específicas de modalidade nas extremidades e um bloco compartilhado no meio.

Velocidade de geração

5s em 256p em cerca de 2s

Usa destilação DMD-2 para rodar em 8 passos de denoising, com síntese rápida de áudio e vídeo.

Forma de lançamento

Subiu anonimamente, depois foi revelado

O projeto apareceu primeiro nos rankings e só depois foi identificado pela comunidade.

Contexto

Equipe, linhagem e intenção de produto

O HappyHorse-1.0 é apresentado como um esforço aberto e pragmático ligado ao ecossistema Taotian da Alibaba, com foco claro em ecommerce, vídeos curtos e humanos digitais.

Equipe principal

Liderado por Zhang Di no Taotian Group Future Life Lab. O laboratório é descrito como uma evolução da antiga unidade ATH-AI, com produção rápida de artigos e foco em sistemas multimodais de produção.

Parceiros e projeto anterior

Há menções a colaboração com a Sand.ai e o GAIR Lab do Instituto de Computação Inteligente de Xangai, além de continuidade da linha técnica do daVinci-MagiHuman aberto em março de 2026.

O que ele quer resolver

A narrativa oficial enfatiza otimização para percepção real do usuário, validação do teto dos modelos abertos e preparação para fluxos comerciais, não apenas demonstração de benchmark.

Arquitetura

Uma pilha unificada multimodal de 15B

O modelo usa uma arquitetura self-attention single-stream em vez do padrão ramificado com cross-attention, buscando unificar o condicionamento e melhorar a estabilidade de treino e inferência.

Transformer single-stream de 40 camadas

Texto, vídeo e áudio entram como tokens na mesma sequência, processados por self-attention, sem depender de cross-attention explícita.

Layout multimodal em sandwich

As 4 primeiras e 4 últimas camadas fazem projeções específicas para text/video/audio, enquanto as 32 camadas centrais compartilham parâmetros.

Caminho eficiente de inferência

Os principais pontos são inferência sem timestep explícito, Per-Head Gating, destilação DMD-2 para 8 passos e MagiCompiler, com cerca de 1,2x de aceleração ponta a ponta.

Capacidades

O que faz o HappyHorse-1.0 se destacar

As reações públicas se concentram principalmente na geração sincronizada de áudio e vídeo, na qualidade de lip sync, no realismo de retratos e na coerência entre múltiplos planos.

Texto para vídeo e imagem para vídeo

Suporta geração apenas por prompt, além de condicionamento por imagem de referência ou latente, cobrindo clipes de 5 a 12 segundos e múltiplas proporções.

Geração nativa de áudio

Diálogos, som ambiente e Foley são gerados na mesma pipeline, reduzindo a necessidade de dublagem posterior.

Narrativa multi-shot

Um único prompt pode conduzir transições de cena, mudanças de plano e continuidade de personagem em rosto, roupa e corpo, com ganchos de controle de estilo como presets LoRA.

Lip sync multilíngue

Os materiais públicos mencionam suporte nativo a 7 idiomas, incluindo mandarim, cantonês, inglês, japonês, coreano, alemão e francês.

Avaliação

Momento no leaderboard e forças medidas

A discussão em torno do HappyHorse-1.0 é impulsionada tanto pelos resultados em ranking quanto pelas reações qualitativas em testes cegos.

Artificial Analysis Video Arena

Relatos públicos apontam o modelo como #1 em texto/imagem para vídeo sem áudio, #2 com áudio e #1 em imagem para vídeo sem áudio, superando modelos como Seedance 2.0, Kling 2.1, Ovi 1.1 e LTX 2.3.

Preferência humana

As votações cegas mostram uma forte taxa de vitória sobre Ovi 1.1 e LTX 2.3, reforçando que o modelo se sai bem em comparações reais com usuários.

Indicadores objetivos

As comparações públicas destacam qualidade visual, aderência ao texto, consistência física e, especialmente, uma taxa de erro de lip sync muito menor que a de vários concorrentes.

Limitações conhecidas

Vídeos de retrato e com um único sujeito parecem especialmente fortes, enquanto cenas mais caóticas ou com vários personagens ainda são vistas como ponto fraco.

Acesso

Como as pessoas estão testando

O modelo é apresentado ao mesmo tempo como uma experiência em nuvem pronta para uso e como uma pilha aberta auto-hospedável assim que o repositório completo for liberado.

Demos em nuvem

Páginas públicas como happyhorse.video e happy-horse.art são mostradas como portas de entrada no navegador com entrada por texto/imagem, exportação HD e integração no estilo API.

Implantação local

Espera-se que a liberação aberta inclua modelo base, modelo destilado, módulo de super-resolução e código de inferência. GPUs da classe H100 são recomendadas inicialmente, com quantização comunitária reduzindo a barreira depois.

Próxima etapa esperada

O roteiro de curto prazo menciona relatório técnico, ferramentas de watermark ou procedência, mecanismos de auditoria e adaptação mais ampla da comunidade.

Por que isso importa

O HappyHorse-1.0 é relevante porque leva um modelo aberto a competir diretamente com sistemas fechados de ponta em um cenário baseado em preferência do usuário. Se esse impulso continuar, ele pode pressionar preços, acelerar fine-tuning e quantização e baratear as pilhas de produção de vídeo vertical.