Lanzamiento open source de abril de 2026

OmniShow

Modelo todo en uno para video de interacción humano-objeto.

OmniShow (OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation) fue desarrollado por ByteDance, The Chinese University of Hong Kong, Monash University y The University of Hong Kong. Es el primer framework end-to-end con soporte completo de RAP2V en un solo modelo.

Ver demos oficiales Ver recursos abiertos

Estado del framework

Primer RAP2V completo

Es el primer modelo público que unifica texto, imagen de referencia, audio y pose en un framework end-to-end.

Entradas unificadas

Texto + Ref + Audio + Pose

Está diseñado para HOIVG y alinea cuatro modalidades para interacciones humano-objeto realistas.

Duración nativa

Hasta 10s

Puede generar planos continuos de hasta 10 segundos sin depender de montaje por etapas.

Backbone base

12B Waver 1.0 (MMDiT)

Se basa en el transformador de difusión multimodal 12B de ByteDance para video condicional de alta fidelidad.

CURATED MOTION SHOWCASE

Generated with
OmniShow

Explore high-quality 9:16 portrait videos generated by OmniShow, tailored for modern e-commerce and social media platforms.

Contexto

Cronología, equipo y enfoque

OmniShow se presentó en abril de 2026 como un esfuerzo abierto importante, centrado en generación HOIVG práctica con condiciones multimodales.

Fecha de lanzamiento

El informe técnico (arXiv:2604.11804) se publicó a mediados de abril de 2026 y el proyecto inició su apertura ese mismo mes.

Autores clave

Incluye a Donghao Zhou, Guisheng Liu y Jiatong Li (project lead), con Shilei Wen y Pheng-Ann Heng como autores de correspondencia.

Objetivo

Apunta a escenarios HOIVG como demos de e-commerce, contenido corto, avatares guiados por audio y producción con alta interacción.

Modos de generación

Cuatro tareas en un modelo

Un solo modelo OmniShow cubre R2V, RA2V, RP2V y RAP2V, evitando pipelines fragmentados por tarea.

R2V: Reference-to-Video

Usa imagen de referencia y texto para generar apariencia fiel e interacción natural.

RA2V: Reference + Audio-to-Video

Agrega audio para mantener identidad y mejorar la sincronización entre movimiento, expresión y voz.

RP2V: Reference + Pose-to-Video

Usa trayectorias de pose para mayor control del movimiento manteniendo contacto realista con objetos.

RAP2V: Ref + Audio + Pose-to-Video

Combina texto, referencia, audio y pose para el control multimodal más fuerte en escenas complejas.

Innovación técnica

Tres decisiones clave

OmniShow resuelve la fusión de condiciones, la sincronía audio-video y el uso de datos heterogéneos con tres estrategias coordinadas.

Unified Channel-wise Conditioning

Inyecta referencia y pose con concatenación por canales y supervisión de reconstrucción para equilibrar control y calidad.

Gated Local-Context Attention

Inyecta audio con atención local enmascarada y compuertas adaptativas para mejorar sincronía y reducir conflicto multimodal.

Decoupled-Then-Joint Training

Primero entrena especialistas R2V/A2V y luego fusiona pesos con ajuste conjunto para datos escasos.

Rendimiento

HOIVG-Bench y calidad práctica

En HOIVG-Bench (135 muestras), OmniShow reporta resultados de nivel SOTA y es el único modelo con cobertura RAP2V completa.

Alcance del benchmark

Evalúa condiciones de texto, referencias humano/objeto, audio y pose con protocolos multimodales de HOIVG.

Cobertura de métricas

Incluye TA, FaceSim, NexusScore, AES, IQA, VQ, MQ, Sync-C, Sync-D, AKD y PCK para medir fidelidad y alineación.

Resultado cualitativo

Frente a HunyuanCustom, HuMo-17B, VACE, Phantom-14B y AnchorCrafter, muestra mejor alineación y contacto más estable.

Recursos

Enlaces oficiales y estado actual

La web del proyecto ya ofrece muchos demos. El repositorio indica internal review y se espera una apertura más completa después.

Sitio del proyecto

Galería y demos comparativos de R2V, RA2V, RP2V y RAP2V.

Abrir enlace

Repositorio GitHub

Código oficial y actualizaciones. La disponibilidad total sigue en revisión interna.

Abrir enlace

PDF del paper

Informe técnico de OmniShow (arXiv:2604.11804).

Abrir enlace

Dataset HOIVG-Bench

Dataset de evaluación HOIVG multimodal con texto, referencia, audio y pose alineados.

Abrir enlace

Aplicaciones

Dónde se puede usar

OmniShow está pensado para flujos que requieren identidad estable, contacto físico realista y control multimodal en un mismo pipeline.

E-commerce y video corto

Genera demos de producto con interacción mano-objeto sin necesidad de un estudio completo.

Creación de contenido

Permite avatares que hablan o cantan por audio, con control corporal guiado por pose.

Interacción creativa

Habilita intercambio de objetos, remix y narrativas multimodales más ricas para entretenimiento.

Educación y presentación

Útil para videos explicativos, demostraciones virtuales y escenarios con interacción humano-objeto precisa.

Por qué es importante

OmniShow destaca por unificar señales multimodales y mejorar la calidad de interacción física en tareas HOIVG.

OmniShow

Generated with OmniShow

Cronología, equipo y enfoque

Fecha de lanzamiento

Autores clave

Objetivo

Cuatro tareas en un modelo

R2V: Reference-to-Video

RA2V: Reference + Audio-to-Video

RP2V: Reference + Pose-to-Video

RAP2V: Ref + Audio + Pose-to-Video

Tres decisiones clave

Unified Channel-wise Conditioning

Gated Local-Context Attention

Decoupled-Then-Joint Training

HOIVG-Bench y calidad práctica

Alcance del benchmark

Cobertura de métricas

Resultado cualitativo

Enlaces oficiales y estado actual

Sitio del proyecto

Repositorio GitHub

PDF del paper

Dataset HOIVG-Bench

Dónde se puede usar

E-commerce y video corto

Creación de contenido

Interacción creativa

Educación y presentación

Por qué es importante

Generated with
OmniShow