Open-Source-Highlight April 2026

OmniShow

All-in-one-Modell für Mensch-Objekt-Interaktionsvideos.

OmniShow (OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation) wurde von ByteDance, der Chinese University of Hong Kong, Monash University und der University of Hong Kong gemeinsam entwickelt. Es ist das erste End-to-End-Framework mit vollständiger RAP2V-Unterstützung in einem Modell.

Framework-Status
Erstes vollständiges RAP2V

Als erstes veröffentlichtes Modell vereint es Text, Referenzbild, Audio und Pose in einem End-to-End-Framework.

Vereinheitlichte Eingaben
Text + Ref + Audio + Pose

Spezifisch für HOIVG ausgelegt, um vier Modalitäten für realistische Mensch-Objekt-Interaktion auszurichten.

Native Shot-Länge
Bis zu 10s

Erzeugt bis zu 10 Sekunden lange kontinuierliche Sequenzen ohne aufwendiges Multi-Stage-Stitching.

Basis-Backbone
12B Waver 1.0 (MMDiT)

Basiert auf ByteDances 12B multimodalem Diffusion-Transformer für hochwertige kontrollierbare Videoerzeugung.

Hintergrund

Zeitplan, Team und Fokus

OmniShow wurde im April 2026 als relevantes Open-Research-Projekt veröffentlicht und fokussiert praktische HOIVG-Erzeugung unter multimodalen Bedingungen.

Veröffentlichung

Der technische Bericht (arXiv:2604.11804) erschien Mitte April 2026, die Open-Source-Ausrollung begann im selben Monat.

Kernbeitragende

Zu den Hauptautoren zählen Donghao Zhou, Guisheng Liu und Jiatong Li (project lead); korrespondierende Autoren sind Shilei Wen und Pheng-Ann Heng.

Zielbereich

Zielt auf HOIVG-Anwendungen wie E-Commerce-Demos, Kurzvideo-Produktion, audio-getriebene Avatare und interaktionsintensive Workflows.

Generierungsmodi

Vier Aufgaben in einem Modell

Ein einzelnes OmniShow-Modell verarbeitet R2V, RA2V, RP2V und RAP2V in einem konsistenten Framework statt in getrennten Pipelines.

R2V: Reference-to-Video

Nutzt Referenzbild und Text für hohe visuelle Treue und natürliche Interaktion.

RA2V: Reference + Audio-to-Video

Ergänzt Audio-Konditionierung, hält Identität stabil und verbessert die zeitliche Synchronisierung.

RP2V: Reference + Pose-to-Video

Verwendet Pose-Trajektorien für stärkere Bewegungssteuerung bei gleichzeitig realistischer Objektinteraktion.

RAP2V: Ref + Audio + Pose-to-Video

Kombiniert Text, Referenzbild, Audio und Pose für maximale multimodale Steuerbarkeit in komplexen Szenen.

Technische Innovationen

Drei zentrale Designentscheidungen

OmniShow adressiert Konditionsfusion, Audio-Video-Sync und heterogene Datennutzung mit drei abgestimmten Methoden.

Unified Channel-wise Conditioning

Injiziert Referenz- und Pose-Hinweise per kanalweiser Pseudo-Frame-Konkatenation mit Rekonstruktionsaufsicht.

Gated Local-Context Attention

Integriert Audio über maskierte lokale Aufmerksamkeit und adaptive Gates für präzise Synchronität.

Decoupled-Then-Joint Training

Trainiert zunächst R2V/A2V-Spezialisten, fusioniert anschließend Gewichte und feintunt gemeinsam unter Datenknappheit.

Leistung

HOIVG-Bench und Praxisqualität

Auf HOIVG-Bench (135 Samples) erreicht OmniShow starke SOTA-Werte und ist das einzige Modell mit vollständiger RAP2V-Abdeckung.

Benchmark-Umfang

Bewertet Text-, Referenz-, Audio- und Pose-Konditionen mit multimodalen HOIVG-Protokollen.

Metriken

Umfasst TA, FaceSim, NexusScore, AES, IQA, VQ, MQ, Sync-C, Sync-D, AKD und PCK für Qualität und Ausrichtung.

Qualitativer Vergleich

Gegenüber HunyuanCustom, HuMo-17B, VACE, Phantom-14B und AnchorCrafter zeigt OmniShow stabilere Interaktion und bessere Ausrichtung.

Ressourcen

Offizielle Links und Status

Die Projektseite bietet bereits viele Demos. Das Repository ist derzeit in internal review, weitere Assets werden schrittweise veröffentlicht.

Projektseite

Galerie und Vergleichsdemos für R2V, RA2V, RP2V und RAP2V.

Link öffnen

GitHub-Repository

Offizieller Code und Updates. Die vollständige Verfügbarkeit ist noch in interner Prüfung.

Link öffnen

Paper PDF

Technischer Bericht zu OmniShow (arXiv:2604.11804).

Link öffnen

HOIVG-Bench-Datensatz

Multimodaler HOIVG-Benchmark mit ausgerichteten Text-, Referenz-, Audio- und Pose-Feldern.

Link öffnen
Anwendungen

Einsatzszenarien

OmniShow eignet sich für Workflows, die stabile Identität, realistischen Objektkontakt und multimodale Steuerbarkeit gleichzeitig benötigen.

E-Commerce & Kurzvideo

Erzeugt Produktdemos mit Hand-Objekt-Interaktion ohne aufwendige Studioaufnahmen.

Content-Erstellung

Unterstützt audio-getriebene sprechende oder singende Avatare mit posegesteuerter Körperbewegung.

Kreative Interaktion

Ermöglicht Objekt-Tausch, Remixing und reichhaltigere multimodale Storytelling-Formate.

Bildung & Präsentation

Nützlich für Erklärvideos, virtuelle Demos und Szenarien mit präziser Mensch-Objekt-Interaktion.

Warum das wichtig ist

OmniShow ist relevant, weil es multimodale Konditionen, physikalische Plausibilität und Synchronität in HOIVG gemeinsam adressiert.

© 2026 wan2.video