Destaque open source de abril de 2026

OmniShow

Modelo all-in-one para vídeo de interação humano-objeto.

OmniShow (OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation) foi desenvolvido por ByteDance, The Chinese University of Hong Kong, Monash University e The University of Hong Kong. É o primeiro framework end-to-end com suporte completo a RAP2V em um único modelo.

Status do framework
Primeiro RAP2V completo

É o primeiro modelo público a unificar texto, imagem de referência, áudio e pose em um framework end-to-end.

Entradas unificadas
Texto + Ref + Áudio + Pose

Foi projetado para HOIVG e alinha quatro modalidades para interações humano-objeto mais realistas.

Duração nativa
Até 10s

Gera planos contínuos de até 10 segundos sem depender de montagem em múltiplos estágios.

Backbone base
12B Waver 1.0 (MMDiT)

Construído sobre o transformador de difusão multimodal 12B da ByteDance para alta fidelidade condicional.

Contexto

Cronograma, equipe e foco

OmniShow foi lançado em abril de 2026 como um esforço aberto relevante, focado em geração HOIVG prática sob condições multimodais.

Lançamento

O relatório técnico (arXiv:2604.11804) saiu em meados de abril de 2026 e o projeto entrou em abertura no mesmo mês.

Autores principais

Entre os autores estão Donghao Zhou, Guisheng Liu e Jiatong Li (project lead), com Shilei Wen e Pheng-Ann Heng como correspondentes.

Objetivo

Focado em cenários HOIVG como demos de e-commerce, vídeos curtos, avatares guiados por áudio e fluxos com alta interação.

Modos de geração

Quatro tarefas em um modelo

Um único OmniShow cobre R2V, RA2V, RP2V e RAP2V, evitando pipelines fragmentados por tarefa.

R2V: Reference-to-Video

Usa imagem de referência e texto para produzir aparência fiel e interação natural.

RA2V: Reference + Audio-to-Video

Adiciona áudio para manter identidade e alinhar melhor expressão e movimento com fala/sons.

RP2V: Reference + Pose-to-Video

Usa pose para controle de trajetória com contato humano-objeto mais consistente.

RAP2V: Ref + Audio + Pose-to-Video

Combina texto, referência, áudio e pose para o controle multimodal mais forte em cenas complexas.

Inovações técnicas

Três escolhas de design

OmniShow aborda fusão de condições, sincronização áudio-vídeo e uso de dados heterogêneos com três estratégias coordenadas.

Unified Channel-wise Conditioning

Injeta referência e pose por concatenação channel-wise de pseudo-frames com supervisão de reconstrução.

Gated Local-Context Attention

Injeta áudio com atenção local mascarada e gates adaptativos para melhorar sincronização e reduzir conflito.

Decoupled-Then-Joint Training

Treina especialistas R2V/A2V primeiro e depois faz fusão de pesos com ajuste conjunto sob escassez de dados.

Desempenho

HOIVG-Bench e qualidade prática

No HOIVG-Bench (135 amostras), o OmniShow reporta resultados em nível SOTA e é o único com RAP2V completo.

Escopo do benchmark

Avalia condições de texto, referência humana/objeto, áudio e pose com protocolos multimodais de HOIVG.

Cobertura de métricas

Inclui TA, FaceSim, NexusScore, AES, IQA, VQ, MQ, Sync-C, Sync-D, AKD e PCK para fidelidade e alinhamento.

Resultado qualitativo

Frente a HunyuanCustom, HuMo-17B, VACE, Phantom-14B e AnchorCrafter, mostra melhor alinhamento e interação estável.

Recursos

Links oficiais e status

A página oficial já oferece muitos demos. O repositório indica internal review e liberação gradual de recursos completos.

Página do projeto

Galeria e comparações lado a lado de R2V, RA2V, RP2V e RAP2V.

Abrir link

Repositório GitHub

Código oficial e atualizações. A disponibilidade total ainda está em revisão interna.

Abrir link

PDF do artigo

Relatório técnico do OmniShow (arXiv:2604.11804).

Abrir link

Dataset HOIVG-Bench

Conjunto de benchmark multimodal com campos de texto, referência, áudio e pose.

Abrir link
Aplicações

Onde usar

OmniShow é indicado para fluxos que exigem identidade estável, contato físico realista e controle multimodal no mesmo pipeline.

E-commerce e vídeo curto

Gera vídeos de demonstração de produto com interação mão-objeto sem estúdio completo.

Criação de conteúdo

Suporta avatares que falam/cantam com áudio, com pose para controlar movimento corporal.

Interação criativa

Permite troca de objetos, remix e narrativas multimodais mais ricas para entretenimento.

Educação e apresentação

Útil para vídeos explicativos, demonstrações virtuais e cenários com interação humano-objeto precisa.

Por que importa

OmniShow é relevante por unificar múltiplas condições e melhorar realismo físico e sincronização em cenários HOIVG.

© 2026 wan2.video