C'est le premier modèle public qui unifie texte, image de référence, audio et pose dans un cadre end-to-end.
OmniShow
Un modèle tout-en-un pour la vidéo d'interaction humain-objet.
OmniShow (OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation) est développé par ByteDance, The Chinese University of Hong Kong, Monash University et The University of Hong Kong. C'est le premier cadre end-to-end avec prise en charge RAP2V complète dans un seul modèle.
Conçu pour HOIVG, il aligne quatre modalités pour des interactions humain-objet plus réalistes.
Il génère directement des plans continus jusqu'à 10 secondes, en réduisant les besoins de stitching multi-étapes.
Construit sur le transformeur de diffusion multimodale 12B de ByteDance pour une génération conditionnelle fidèle.
Generated with
OmniShow
Explore high-quality 9:16 portrait videos generated by OmniShow, tailored for modern e-commerce and social media platforms.
Calendrier, équipe et objectif
OmniShow a été publié en avril 2026 comme un effort ouvert majeur, centré sur la génération HOIVG pratique sous contraintes multimodales.
Période de sortie
Le rapport technique (arXiv:2604.11804) est paru mi-avril 2026, et l'ouverture du projet a commencé le même mois.
Contributeurs clés
Les auteurs principaux incluent Donghao Zhou, Guisheng Liu et Jiatong Li (project lead), avec Shilei Wen et Pheng-Ann Heng comme correspondants.
Cible
Le modèle vise des cas HOIVG comme démos e-commerce, contenus courts, avatars pilotés par audio et workflows à forte interaction.
Quatre tâches dans un seul modèle
Un seul modèle OmniShow couvre R2V, RA2V, RP2V et RAP2V, au lieu de pipelines fragmentés par tâche.
R2V : Reference-to-Video
Utilise image de référence et texte pour produire une apparence fidèle et une interaction naturelle.
RA2V : Reference + Audio-to-Video
Ajoute l'audio pour conserver l'identité et améliorer l'alignement entre mouvement, expression et voix.
RP2V : Reference + Pose-to-Video
Exploite la pose pour mieux contrôler la trajectoire tout en conservant le réalisme du contact objet.
RAP2V : Ref + Audio + Pose-to-Video
Combine texte, référence, audio et pose pour le contrôle multimodal le plus fort dans les scènes complexes.
Trois choix de conception
OmniShow traite la fusion des conditions, la synchronisation audio-vidéo et l'exploitation de données hétérogènes via trois stratégies coordonnées.
Unified Channel-wise Conditioning
Injecte référence et pose via concaténation channel-wise de pseudo-frames avec supervision de reconstruction.
Gated Local-Context Attention
Injecte l'audio via attention locale masquée et portes adaptatives pour améliorer la synchro et réduire les conflits.
Decoupled-Then-Joint Training
Entraîne d'abord des spécialistes R2V/A2V, puis fusionne les poids et affine conjointement sous rareté de données.
HOIVG-Bench et qualité pratique
Sur HOIVG-Bench (135 échantillons), OmniShow rapporte des résultats de niveau SOTA et reste le seul modèle couvrant RAP2V complet.
Portée du benchmark
Évalue texte, références humain/objet, audio et pose selon des protocoles HOIVG multimodaux.
Couverture métrique
Inclut TA, FaceSim, NexusScore, AES, IQA, VQ, MQ, Sync-C, Sync-D, AKD et PCK pour fidélité et alignement.
Résultat qualitatif
Face à HunyuanCustom, HuMo-17B, VACE, Phantom-14B et AnchorCrafter, OmniShow montre un meilleur alignement et des interactions plus stables.
Liens officiels et statut
La page du projet propose déjà de nombreuses démos. Le dépôt indique un statut internal review avec ouverture progressive à venir.
Page du projet
Galerie et démos comparatives pour R2V, RA2V, RP2V et RAP2V.
Ouvrir le lienDépôt GitHub
Code officiel et fil de mise à jour. La disponibilité complète est encore en revue interne.
Ouvrir le lienPDF de l'article
Rapport technique OmniShow (arXiv:2604.11804).
Ouvrir le lienDataset HOIVG-Bench
Dataset d'évaluation HOIVG multimodal avec champs texte, référence, audio et pose alignés.
Ouvrir le lienOù l'utiliser
OmniShow est conçu pour les workflows exigeant identité stable, contact physique réaliste et contrôle multimodal dans une même chaîne.
E-commerce et vidéo courte
Génère des démos produit avec interaction main-objet sans studio complet.
Création de contenu
Prend en charge les avatars qui parlent ou chantent via audio, avec contrôle corporel par pose.
Interaction créative
Permet échange d'objets, remix et storytelling multimodal plus riche pour le divertissement.
Éducation et présentation
Utile pour vidéos explicatives, démos virtuelles et scénarios avec interaction humain-objet précise.
Pourquoi c'est important
OmniShow se distingue par l'unification multimodale et une meilleure stabilité des interactions physiques en HOIVG.