Lanzamiento open source de abril de 2026

OmniShow

Modelo todo en uno para video de interacción humano-objeto.

OmniShow (OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation) fue desarrollado por ByteDance, The Chinese University of Hong Kong, Monash University y The University of Hong Kong. Es el primer framework end-to-end con soporte completo de RAP2V en un solo modelo.

Estado del framework
Primer RAP2V completo

Es el primer modelo público que unifica texto, imagen de referencia, audio y pose en un framework end-to-end.

Entradas unificadas
Texto + Ref + Audio + Pose

Está diseñado para HOIVG y alinea cuatro modalidades para interacciones humano-objeto realistas.

Duración nativa
Hasta 10s

Puede generar planos continuos de hasta 10 segundos sin depender de montaje por etapas.

Backbone base
12B Waver 1.0 (MMDiT)

Se basa en el transformador de difusión multimodal 12B de ByteDance para video condicional de alta fidelidad.

Contexto

Cronología, equipo y enfoque

OmniShow se presentó en abril de 2026 como un esfuerzo abierto importante, centrado en generación HOIVG práctica con condiciones multimodales.

Fecha de lanzamiento

El informe técnico (arXiv:2604.11804) se publicó a mediados de abril de 2026 y el proyecto inició su apertura ese mismo mes.

Autores clave

Incluye a Donghao Zhou, Guisheng Liu y Jiatong Li (project lead), con Shilei Wen y Pheng-Ann Heng como autores de correspondencia.

Objetivo

Apunta a escenarios HOIVG como demos de e-commerce, contenido corto, avatares guiados por audio y producción con alta interacción.

Modos de generación

Cuatro tareas en un modelo

Un solo modelo OmniShow cubre R2V, RA2V, RP2V y RAP2V, evitando pipelines fragmentados por tarea.

R2V: Reference-to-Video

Usa imagen de referencia y texto para generar apariencia fiel e interacción natural.

RA2V: Reference + Audio-to-Video

Agrega audio para mantener identidad y mejorar la sincronización entre movimiento, expresión y voz.

RP2V: Reference + Pose-to-Video

Usa trayectorias de pose para mayor control del movimiento manteniendo contacto realista con objetos.

RAP2V: Ref + Audio + Pose-to-Video

Combina texto, referencia, audio y pose para el control multimodal más fuerte en escenas complejas.

Innovación técnica

Tres decisiones clave

OmniShow resuelve la fusión de condiciones, la sincronía audio-video y el uso de datos heterogéneos con tres estrategias coordinadas.

Unified Channel-wise Conditioning

Inyecta referencia y pose con concatenación por canales y supervisión de reconstrucción para equilibrar control y calidad.

Gated Local-Context Attention

Inyecta audio con atención local enmascarada y compuertas adaptativas para mejorar sincronía y reducir conflicto multimodal.

Decoupled-Then-Joint Training

Primero entrena especialistas R2V/A2V y luego fusiona pesos con ajuste conjunto para datos escasos.

Rendimiento

HOIVG-Bench y calidad práctica

En HOIVG-Bench (135 muestras), OmniShow reporta resultados de nivel SOTA y es el único modelo con cobertura RAP2V completa.

Alcance del benchmark

Evalúa condiciones de texto, referencias humano/objeto, audio y pose con protocolos multimodales de HOIVG.

Cobertura de métricas

Incluye TA, FaceSim, NexusScore, AES, IQA, VQ, MQ, Sync-C, Sync-D, AKD y PCK para medir fidelidad y alineación.

Resultado cualitativo

Frente a HunyuanCustom, HuMo-17B, VACE, Phantom-14B y AnchorCrafter, muestra mejor alineación y contacto más estable.

Recursos

Enlaces oficiales y estado actual

La web del proyecto ya ofrece muchos demos. El repositorio indica internal review y se espera una apertura más completa después.

Sitio del proyecto

Galería y demos comparativos de R2V, RA2V, RP2V y RAP2V.

Abrir enlace

Repositorio GitHub

Código oficial y actualizaciones. La disponibilidad total sigue en revisión interna.

Abrir enlace

PDF del paper

Informe técnico de OmniShow (arXiv:2604.11804).

Abrir enlace

Dataset HOIVG-Bench

Dataset de evaluación HOIVG multimodal con texto, referencia, audio y pose alineados.

Abrir enlace
Aplicaciones

Dónde se puede usar

OmniShow está pensado para flujos que requieren identidad estable, contacto físico realista y control multimodal en un mismo pipeline.

E-commerce y video corto

Genera demos de producto con interacción mano-objeto sin necesidad de un estudio completo.

Creación de contenido

Permite avatares que hablan o cantan por audio, con control corporal guiado por pose.

Interacción creativa

Habilita intercambio de objetos, remix y narrativas multimodales más ricas para entretenimiento.

Educación y presentación

Útil para videos explicativos, demostraciones virtuales y escenarios con interacción humano-objeto precisa.

Por qué es importante

OmniShow destaca por unificar señales multimodales y mejorar la calidad de interacción física en tareas HOIVG.

© 2026 wan2.video