Temps fort open source d'avril 2026

OmniShow

Un modèle tout-en-un pour la vidéo d'interaction humain-objet.

OmniShow (OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation) est développé par ByteDance, The Chinese University of Hong Kong, Monash University et The University of Hong Kong. C'est le premier cadre end-to-end avec prise en charge RAP2V complète dans un seul modèle.

Statut du framework
Premier RAP2V complet

C'est le premier modèle public qui unifie texte, image de référence, audio et pose dans un cadre end-to-end.

Entrées unifiées
Texte + Ref + Audio + Pose

Conçu pour HOIVG, il aligne quatre modalités pour des interactions humain-objet plus réalistes.

Durée native
Jusqu'à 10s

Il génère directement des plans continus jusqu'à 10 secondes, en réduisant les besoins de stitching multi-étapes.

Backbone de base
12B Waver 1.0 (MMDiT)

Construit sur le transformeur de diffusion multimodale 12B de ByteDance pour une génération conditionnelle fidèle.

Contexte

Calendrier, équipe et objectif

OmniShow a été publié en avril 2026 comme un effort ouvert majeur, centré sur la génération HOIVG pratique sous contraintes multimodales.

Période de sortie

Le rapport technique (arXiv:2604.11804) est paru mi-avril 2026, et l'ouverture du projet a commencé le même mois.

Contributeurs clés

Les auteurs principaux incluent Donghao Zhou, Guisheng Liu et Jiatong Li (project lead), avec Shilei Wen et Pheng-Ann Heng comme correspondants.

Cible

Le modèle vise des cas HOIVG comme démos e-commerce, contenus courts, avatars pilotés par audio et workflows à forte interaction.

Modes de génération

Quatre tâches dans un seul modèle

Un seul modèle OmniShow couvre R2V, RA2V, RP2V et RAP2V, au lieu de pipelines fragmentés par tâche.

R2V : Reference-to-Video

Utilise image de référence et texte pour produire une apparence fidèle et une interaction naturelle.

RA2V : Reference + Audio-to-Video

Ajoute l'audio pour conserver l'identité et améliorer l'alignement entre mouvement, expression et voix.

RP2V : Reference + Pose-to-Video

Exploite la pose pour mieux contrôler la trajectoire tout en conservant le réalisme du contact objet.

RAP2V : Ref + Audio + Pose-to-Video

Combine texte, référence, audio et pose pour le contrôle multimodal le plus fort dans les scènes complexes.

Innovations techniques

Trois choix de conception

OmniShow traite la fusion des conditions, la synchronisation audio-vidéo et l'exploitation de données hétérogènes via trois stratégies coordonnées.

Unified Channel-wise Conditioning

Injecte référence et pose via concaténation channel-wise de pseudo-frames avec supervision de reconstruction.

Gated Local-Context Attention

Injecte l'audio via attention locale masquée et portes adaptatives pour améliorer la synchro et réduire les conflits.

Decoupled-Then-Joint Training

Entraîne d'abord des spécialistes R2V/A2V, puis fusionne les poids et affine conjointement sous rareté de données.

Performance

HOIVG-Bench et qualité pratique

Sur HOIVG-Bench (135 échantillons), OmniShow rapporte des résultats de niveau SOTA et reste le seul modèle couvrant RAP2V complet.

Portée du benchmark

Évalue texte, références humain/objet, audio et pose selon des protocoles HOIVG multimodaux.

Couverture métrique

Inclut TA, FaceSim, NexusScore, AES, IQA, VQ, MQ, Sync-C, Sync-D, AKD et PCK pour fidélité et alignement.

Résultat qualitatif

Face à HunyuanCustom, HuMo-17B, VACE, Phantom-14B et AnchorCrafter, OmniShow montre un meilleur alignement et des interactions plus stables.

Ressources

Liens officiels et statut

La page du projet propose déjà de nombreuses démos. Le dépôt indique un statut internal review avec ouverture progressive à venir.

Page du projet

Galerie et démos comparatives pour R2V, RA2V, RP2V et RAP2V.

Ouvrir le lien

Dépôt GitHub

Code officiel et fil de mise à jour. La disponibilité complète est encore en revue interne.

Ouvrir le lien

PDF de l'article

Rapport technique OmniShow (arXiv:2604.11804).

Ouvrir le lien

Dataset HOIVG-Bench

Dataset d'évaluation HOIVG multimodal avec champs texte, référence, audio et pose alignés.

Ouvrir le lien
Applications

Où l'utiliser

OmniShow est conçu pour les workflows exigeant identité stable, contact physique réaliste et contrôle multimodal dans une même chaîne.

E-commerce et vidéo courte

Génère des démos produit avec interaction main-objet sans studio complet.

Création de contenu

Prend en charge les avatars qui parlent ou chantent via audio, avec contrôle corporel par pose.

Interaction créative

Permet échange d'objets, remix et storytelling multimodal plus riche pour le divertissement.

Éducation et présentation

Utile pour vidéos explicatives, démos virtuelles et scénarios avec interaction humain-objet précise.

Pourquoi c'est important

OmniShow se distingue par l'unification multimodale et une meilleure stabilité des interactions physiques en HOIVG.

© 2026 wan2.video