Es el primer modelo público que unifica texto, imagen de referencia, audio y pose en un framework end-to-end.
OmniShow
Modelo todo en uno para video de interacción humano-objeto.
OmniShow (OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation) fue desarrollado por ByteDance, The Chinese University of Hong Kong, Monash University y The University of Hong Kong. Es el primer framework end-to-end con soporte completo de RAP2V en un solo modelo.
Está diseñado para HOIVG y alinea cuatro modalidades para interacciones humano-objeto realistas.
Puede generar planos continuos de hasta 10 segundos sin depender de montaje por etapas.
Se basa en el transformador de difusión multimodal 12B de ByteDance para video condicional de alta fidelidad.
Generated with
OmniShow
Explore high-quality 9:16 portrait videos generated by OmniShow, tailored for modern e-commerce and social media platforms.
Cronología, equipo y enfoque
OmniShow se presentó en abril de 2026 como un esfuerzo abierto importante, centrado en generación HOIVG práctica con condiciones multimodales.
Fecha de lanzamiento
El informe técnico (arXiv:2604.11804) se publicó a mediados de abril de 2026 y el proyecto inició su apertura ese mismo mes.
Autores clave
Incluye a Donghao Zhou, Guisheng Liu y Jiatong Li (project lead), con Shilei Wen y Pheng-Ann Heng como autores de correspondencia.
Objetivo
Apunta a escenarios HOIVG como demos de e-commerce, contenido corto, avatares guiados por audio y producción con alta interacción.
Cuatro tareas en un modelo
Un solo modelo OmniShow cubre R2V, RA2V, RP2V y RAP2V, evitando pipelines fragmentados por tarea.
R2V: Reference-to-Video
Usa imagen de referencia y texto para generar apariencia fiel e interacción natural.
RA2V: Reference + Audio-to-Video
Agrega audio para mantener identidad y mejorar la sincronización entre movimiento, expresión y voz.
RP2V: Reference + Pose-to-Video
Usa trayectorias de pose para mayor control del movimiento manteniendo contacto realista con objetos.
RAP2V: Ref + Audio + Pose-to-Video
Combina texto, referencia, audio y pose para el control multimodal más fuerte en escenas complejas.
Tres decisiones clave
OmniShow resuelve la fusión de condiciones, la sincronía audio-video y el uso de datos heterogéneos con tres estrategias coordinadas.
Unified Channel-wise Conditioning
Inyecta referencia y pose con concatenación por canales y supervisión de reconstrucción para equilibrar control y calidad.
Gated Local-Context Attention
Inyecta audio con atención local enmascarada y compuertas adaptativas para mejorar sincronía y reducir conflicto multimodal.
Decoupled-Then-Joint Training
Primero entrena especialistas R2V/A2V y luego fusiona pesos con ajuste conjunto para datos escasos.
HOIVG-Bench y calidad práctica
En HOIVG-Bench (135 muestras), OmniShow reporta resultados de nivel SOTA y es el único modelo con cobertura RAP2V completa.
Alcance del benchmark
Evalúa condiciones de texto, referencias humano/objeto, audio y pose con protocolos multimodales de HOIVG.
Cobertura de métricas
Incluye TA, FaceSim, NexusScore, AES, IQA, VQ, MQ, Sync-C, Sync-D, AKD y PCK para medir fidelidad y alineación.
Resultado cualitativo
Frente a HunyuanCustom, HuMo-17B, VACE, Phantom-14B y AnchorCrafter, muestra mejor alineación y contacto más estable.
Enlaces oficiales y estado actual
La web del proyecto ya ofrece muchos demos. El repositorio indica internal review y se espera una apertura más completa después.
Sitio del proyecto
Galería y demos comparativos de R2V, RA2V, RP2V y RAP2V.
Abrir enlaceRepositorio GitHub
Código oficial y actualizaciones. La disponibilidad total sigue en revisión interna.
Abrir enlacePDF del paper
Informe técnico de OmniShow (arXiv:2604.11804).
Abrir enlaceDataset HOIVG-Bench
Dataset de evaluación HOIVG multimodal con texto, referencia, audio y pose alineados.
Abrir enlaceDónde se puede usar
OmniShow está pensado para flujos que requieren identidad estable, contacto físico realista y control multimodal en un mismo pipeline.
E-commerce y video corto
Genera demos de producto con interacción mano-objeto sin necesidad de un estudio completo.
Creación de contenido
Permite avatares que hablan o cantan por audio, con control corporal guiado por pose.
Interacción creativa
Habilita intercambio de objetos, remix y narrativas multimodales más ricas para entretenimiento.
Educación y presentación
Útil para videos explicativos, demostraciones virtuales y escenarios con interacción humano-objeto precisa.
Por qué es importante
OmniShow destaca por unificar señales multimodales y mejorar la calidad de interacción física en tareas HOIVG.