Desempenho forte no Artificial Analysis Video Arena, à frente de vários modelos fechados populares.
HappyHorse-1.0
Um novo modelo aberto de vídeo que saltou para o topo do ranking quase da noite para o dia.
Também escrito como Happy Horse 1.0, o HappyHorse-1.0 é um modelo multimodal de 15B para texto/imagem em vídeo, com geração nativa de áudio, forte qualidade em retratos e uma direção de produto centrada na preferência real dos usuários, não apenas em métricas de laboratório.
Estrutura com 40 camadas, projeções específicas de modalidade nas extremidades e um bloco compartilhado no meio.
Usa destilação DMD-2 para rodar em 8 passos de denoising, com síntese rápida de áudio e vídeo.
O projeto apareceu primeiro nos rankings e só depois foi identificado pela comunidade.
Equipe, linhagem e intenção de produto
O HappyHorse-1.0 é apresentado como um esforço aberto e pragmático ligado ao ecossistema Taotian da Alibaba, com foco claro em ecommerce, vídeos curtos e humanos digitais.
Equipe principal
Liderado por Zhang Di no Taotian Group Future Life Lab. O laboratório é descrito como uma evolução da antiga unidade ATH-AI, com produção rápida de artigos e foco em sistemas multimodais de produção.
Parceiros e projeto anterior
Há menções a colaboração com a Sand.ai e o GAIR Lab do Instituto de Computação Inteligente de Xangai, além de continuidade da linha técnica do daVinci-MagiHuman aberto em março de 2026.
O que ele quer resolver
A narrativa oficial enfatiza otimização para percepção real do usuário, validação do teto dos modelos abertos e preparação para fluxos comerciais, não apenas demonstração de benchmark.
Uma pilha unificada multimodal de 15B
O modelo usa uma arquitetura self-attention single-stream em vez do padrão ramificado com cross-attention, buscando unificar o condicionamento e melhorar a estabilidade de treino e inferência.
Transformer single-stream de 40 camadas
Texto, vídeo e áudio entram como tokens na mesma sequência, processados por self-attention, sem depender de cross-attention explícita.
Layout multimodal em sandwich
As 4 primeiras e 4 últimas camadas fazem projeções específicas para text/video/audio, enquanto as 32 camadas centrais compartilham parâmetros.
Caminho eficiente de inferência
Os principais pontos são inferência sem timestep explícito, Per-Head Gating, destilação DMD-2 para 8 passos e MagiCompiler, com cerca de 1,2x de aceleração ponta a ponta.
O que faz o HappyHorse-1.0 se destacar
As reações públicas se concentram principalmente na geração sincronizada de áudio e vídeo, na qualidade de lip sync, no realismo de retratos e na coerência entre múltiplos planos.
Texto para vídeo e imagem para vídeo
Suporta geração apenas por prompt, além de condicionamento por imagem de referência ou latente, cobrindo clipes de 5 a 12 segundos e múltiplas proporções.
Geração nativa de áudio
Diálogos, som ambiente e Foley são gerados na mesma pipeline, reduzindo a necessidade de dublagem posterior.
Narrativa multi-shot
Um único prompt pode conduzir transições de cena, mudanças de plano e continuidade de personagem em rosto, roupa e corpo, com ganchos de controle de estilo como presets LoRA.
Lip sync multilíngue
Os materiais públicos mencionam suporte nativo a 7 idiomas, incluindo mandarim, cantonês, inglês, japonês, coreano, alemão e francês.
Momento no leaderboard e forças medidas
A discussão em torno do HappyHorse-1.0 é impulsionada tanto pelos resultados em ranking quanto pelas reações qualitativas em testes cegos.
Artificial Analysis Video Arena
Relatos públicos apontam o modelo como #1 em texto/imagem para vídeo sem áudio, #2 com áudio e #1 em imagem para vídeo sem áudio, superando modelos como Seedance 2.0, Kling 2.1, Ovi 1.1 e LTX 2.3.
Preferência humana
As votações cegas mostram uma forte taxa de vitória sobre Ovi 1.1 e LTX 2.3, reforçando que o modelo se sai bem em comparações reais com usuários.
Indicadores objetivos
As comparações públicas destacam qualidade visual, aderência ao texto, consistência física e, especialmente, uma taxa de erro de lip sync muito menor que a de vários concorrentes.
Limitações conhecidas
Vídeos de retrato e com um único sujeito parecem especialmente fortes, enquanto cenas mais caóticas ou com vários personagens ainda são vistas como ponto fraco.
Como as pessoas estão testando
O modelo é apresentado ao mesmo tempo como uma experiência em nuvem pronta para uso e como uma pilha aberta auto-hospedável assim que o repositório completo for liberado.
Demos em nuvem
Páginas públicas como happyhorse.video e happy-horse.art são mostradas como portas de entrada no navegador com entrada por texto/imagem, exportação HD e integração no estilo API.
Implantação local
Espera-se que a liberação aberta inclua modelo base, modelo destilado, módulo de super-resolução e código de inferência. GPUs da classe H100 são recomendadas inicialmente, com quantização comunitária reduzindo a barreira depois.
Próxima etapa esperada
O roteiro de curto prazo menciona relatório técnico, ferramentas de watermark ou procedência, mecanismos de auditoria e adaptação mais ampla da comunidade.
Por que isso importa
O HappyHorse-1.0 é relevante porque leva um modelo aberto a competir diretamente com sistemas fechados de ponta em um cenário baseado em preferência do usuário. Se esse impulso continuar, ele pode pressionar preços, acelerar fine-tuning e quantização e baratear as pilhas de produção de vídeo vertical.