É o primeiro modelo público a unificar texto, imagem de referência, áudio e pose em um framework end-to-end.
OmniShow
Modelo all-in-one para vídeo de interação humano-objeto.
OmniShow (OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation) foi desenvolvido por ByteDance, The Chinese University of Hong Kong, Monash University e The University of Hong Kong. É o primeiro framework end-to-end com suporte completo a RAP2V em um único modelo.
Foi projetado para HOIVG e alinha quatro modalidades para interações humano-objeto mais realistas.
Gera planos contínuos de até 10 segundos sem depender de montagem em múltiplos estágios.
Construído sobre o transformador de difusão multimodal 12B da ByteDance para alta fidelidade condicional.
Generated with
OmniShow
Explore high-quality 9:16 portrait videos generated by OmniShow, tailored for modern e-commerce and social media platforms.
Cronograma, equipe e foco
OmniShow foi lançado em abril de 2026 como um esforço aberto relevante, focado em geração HOIVG prática sob condições multimodais.
Lançamento
O relatório técnico (arXiv:2604.11804) saiu em meados de abril de 2026 e o projeto entrou em abertura no mesmo mês.
Autores principais
Entre os autores estão Donghao Zhou, Guisheng Liu e Jiatong Li (project lead), com Shilei Wen e Pheng-Ann Heng como correspondentes.
Objetivo
Focado em cenários HOIVG como demos de e-commerce, vídeos curtos, avatares guiados por áudio e fluxos com alta interação.
Quatro tarefas em um modelo
Um único OmniShow cobre R2V, RA2V, RP2V e RAP2V, evitando pipelines fragmentados por tarefa.
R2V: Reference-to-Video
Usa imagem de referência e texto para produzir aparência fiel e interação natural.
RA2V: Reference + Audio-to-Video
Adiciona áudio para manter identidade e alinhar melhor expressão e movimento com fala/sons.
RP2V: Reference + Pose-to-Video
Usa pose para controle de trajetória com contato humano-objeto mais consistente.
RAP2V: Ref + Audio + Pose-to-Video
Combina texto, referência, áudio e pose para o controle multimodal mais forte em cenas complexas.
Três escolhas de design
OmniShow aborda fusão de condições, sincronização áudio-vídeo e uso de dados heterogêneos com três estratégias coordenadas.
Unified Channel-wise Conditioning
Injeta referência e pose por concatenação channel-wise de pseudo-frames com supervisão de reconstrução.
Gated Local-Context Attention
Injeta áudio com atenção local mascarada e gates adaptativos para melhorar sincronização e reduzir conflito.
Decoupled-Then-Joint Training
Treina especialistas R2V/A2V primeiro e depois faz fusão de pesos com ajuste conjunto sob escassez de dados.
HOIVG-Bench e qualidade prática
No HOIVG-Bench (135 amostras), o OmniShow reporta resultados em nível SOTA e é o único com RAP2V completo.
Escopo do benchmark
Avalia condições de texto, referência humana/objeto, áudio e pose com protocolos multimodais de HOIVG.
Cobertura de métricas
Inclui TA, FaceSim, NexusScore, AES, IQA, VQ, MQ, Sync-C, Sync-D, AKD e PCK para fidelidade e alinhamento.
Resultado qualitativo
Frente a HunyuanCustom, HuMo-17B, VACE, Phantom-14B e AnchorCrafter, mostra melhor alinhamento e interação estável.
Links oficiais e status
A página oficial já oferece muitos demos. O repositório indica internal review e liberação gradual de recursos completos.
Página do projeto
Galeria e comparações lado a lado de R2V, RA2V, RP2V e RAP2V.
Abrir linkRepositório GitHub
Código oficial e atualizações. A disponibilidade total ainda está em revisão interna.
Abrir linkPDF do artigo
Relatório técnico do OmniShow (arXiv:2604.11804).
Abrir linkDataset HOIVG-Bench
Conjunto de benchmark multimodal com campos de texto, referência, áudio e pose.
Abrir linkOnde usar
OmniShow é indicado para fluxos que exigem identidade estável, contato físico realista e controle multimodal no mesmo pipeline.
E-commerce e vídeo curto
Gera vídeos de demonstração de produto com interação mão-objeto sem estúdio completo.
Criação de conteúdo
Suporta avatares que falam/cantam com áudio, com pose para controlar movimento corporal.
Interação criativa
Permite troca de objetos, remix e narrativas multimodais mais ricas para entretenimento.
Educação e apresentação
Útil para vídeos explicativos, demonstrações virtuais e cenários com interação humano-objeto precisa.
Por que importa
OmniShow é relevante por unificar múltiplas condições e melhorar realismo físico e sincronização em cenários HOIVG.