Als erstes veröffentlichtes Modell vereint es Text, Referenzbild, Audio und Pose in einem End-to-End-Framework.
OmniShow
All-in-one-Modell für Mensch-Objekt-Interaktionsvideos.
OmniShow (OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation) wurde von ByteDance, der Chinese University of Hong Kong, Monash University und der University of Hong Kong gemeinsam entwickelt. Es ist das erste End-to-End-Framework mit vollständiger RAP2V-Unterstützung in einem Modell.
Spezifisch für HOIVG ausgelegt, um vier Modalitäten für realistische Mensch-Objekt-Interaktion auszurichten.
Erzeugt bis zu 10 Sekunden lange kontinuierliche Sequenzen ohne aufwendiges Multi-Stage-Stitching.
Basiert auf ByteDances 12B multimodalem Diffusion-Transformer für hochwertige kontrollierbare Videoerzeugung.
Generated with
OmniShow
Explore high-quality 9:16 portrait videos generated by OmniShow, tailored for modern e-commerce and social media platforms.
Zeitplan, Team und Fokus
OmniShow wurde im April 2026 als relevantes Open-Research-Projekt veröffentlicht und fokussiert praktische HOIVG-Erzeugung unter multimodalen Bedingungen.
Veröffentlichung
Der technische Bericht (arXiv:2604.11804) erschien Mitte April 2026, die Open-Source-Ausrollung begann im selben Monat.
Kernbeitragende
Zu den Hauptautoren zählen Donghao Zhou, Guisheng Liu und Jiatong Li (project lead); korrespondierende Autoren sind Shilei Wen und Pheng-Ann Heng.
Zielbereich
Zielt auf HOIVG-Anwendungen wie E-Commerce-Demos, Kurzvideo-Produktion, audio-getriebene Avatare und interaktionsintensive Workflows.
Vier Aufgaben in einem Modell
Ein einzelnes OmniShow-Modell verarbeitet R2V, RA2V, RP2V und RAP2V in einem konsistenten Framework statt in getrennten Pipelines.
R2V: Reference-to-Video
Nutzt Referenzbild und Text für hohe visuelle Treue und natürliche Interaktion.
RA2V: Reference + Audio-to-Video
Ergänzt Audio-Konditionierung, hält Identität stabil und verbessert die zeitliche Synchronisierung.
RP2V: Reference + Pose-to-Video
Verwendet Pose-Trajektorien für stärkere Bewegungssteuerung bei gleichzeitig realistischer Objektinteraktion.
RAP2V: Ref + Audio + Pose-to-Video
Kombiniert Text, Referenzbild, Audio und Pose für maximale multimodale Steuerbarkeit in komplexen Szenen.
Drei zentrale Designentscheidungen
OmniShow adressiert Konditionsfusion, Audio-Video-Sync und heterogene Datennutzung mit drei abgestimmten Methoden.
Unified Channel-wise Conditioning
Injiziert Referenz- und Pose-Hinweise per kanalweiser Pseudo-Frame-Konkatenation mit Rekonstruktionsaufsicht.
Gated Local-Context Attention
Integriert Audio über maskierte lokale Aufmerksamkeit und adaptive Gates für präzise Synchronität.
Decoupled-Then-Joint Training
Trainiert zunächst R2V/A2V-Spezialisten, fusioniert anschließend Gewichte und feintunt gemeinsam unter Datenknappheit.
HOIVG-Bench und Praxisqualität
Auf HOIVG-Bench (135 Samples) erreicht OmniShow starke SOTA-Werte und ist das einzige Modell mit vollständiger RAP2V-Abdeckung.
Benchmark-Umfang
Bewertet Text-, Referenz-, Audio- und Pose-Konditionen mit multimodalen HOIVG-Protokollen.
Metriken
Umfasst TA, FaceSim, NexusScore, AES, IQA, VQ, MQ, Sync-C, Sync-D, AKD und PCK für Qualität und Ausrichtung.
Qualitativer Vergleich
Gegenüber HunyuanCustom, HuMo-17B, VACE, Phantom-14B und AnchorCrafter zeigt OmniShow stabilere Interaktion und bessere Ausrichtung.
Offizielle Links und Status
Die Projektseite bietet bereits viele Demos. Das Repository ist derzeit in internal review, weitere Assets werden schrittweise veröffentlicht.
Projektseite
Galerie und Vergleichsdemos für R2V, RA2V, RP2V und RAP2V.
Link öffnenGitHub-Repository
Offizieller Code und Updates. Die vollständige Verfügbarkeit ist noch in interner Prüfung.
Link öffnenPaper PDF
Technischer Bericht zu OmniShow (arXiv:2604.11804).
Link öffnenHOIVG-Bench-Datensatz
Multimodaler HOIVG-Benchmark mit ausgerichteten Text-, Referenz-, Audio- und Pose-Feldern.
Link öffnenEinsatzszenarien
OmniShow eignet sich für Workflows, die stabile Identität, realistischen Objektkontakt und multimodale Steuerbarkeit gleichzeitig benötigen.
E-Commerce & Kurzvideo
Erzeugt Produktdemos mit Hand-Objekt-Interaktion ohne aufwendige Studioaufnahmen.
Content-Erstellung
Unterstützt audio-getriebene sprechende oder singende Avatare mit posegesteuerter Körperbewegung.
Kreative Interaktion
Ermöglicht Objekt-Tausch, Remixing und reichhaltigere multimodale Storytelling-Formate.
Bildung & Präsentation
Nützlich für Erklärvideos, virtuelle Demos und Szenarien mit präziser Mensch-Objekt-Interaktion.
Warum das wichtig ist
OmniShow ist relevant, weil es multimodale Konditionen, physikalische Plausibilität und Synchronität in HOIVG gemeinsam adressiert.