在已公開模型中,率先把文字、參考圖、音訊與姿勢統一到同一個端到端框架。
OmniShow
面向人-物互動影片生成的一體化多模態模型。
OmniShow 全稱 OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation,由字節跳動、香港中文大學、莫納什大學與香港大學聯合研發並開源。它是目前首個在單模型中完整支援 RAP2V 的端到端框架。
專為 HOIVG 設計,重點提升多條件對齊下的人-物互動真實性。
可直接生成連續長鏡頭,降低多段拼接帶來的時序不穩定。
基於字節跳動 12B 多模態擴散變換器,面向高保真可控影片生成。
Generated with
OmniShow
Explore high-quality 9:16 portrait videos generated by OmniShow, tailored for modern e-commerce and social media platforms.
時間、團隊與定位
OmniShow 於 2026 年 4 月作為 AI 影片領域的重要開源研究發布,聚焦多模態條件下的人-物互動生成。
發布時間
技術報告(arXiv:2604.11804)約於 2026 年 4 月中旬發表,專案同月進入開源節奏。
核心作者
核心作者包括 Donghao Zhou、Guisheng Liu、Jiatong Li(project lead)等,通訊作者為 Shilei Wen 與 Pheng-Ann Heng。
核心目標
主要面向電商展示、短影片內容、音訊驅動數位人與高互動場景的 HOIVG 任務。
單模型統一四種任務
OmniShow 在同一框架內統一支援 R2V、RA2V、RP2V、RAP2V,降低多模型管線複雜度。
R2V:Reference-to-Video
輸入參考圖與文字,生成高保真外觀與自然的人-物互動。
RA2V:Reference + Audio-to-Video
在參考圖基礎上加入音訊條件,維持身份一致並提升音畫同步。
RP2V:Reference + Pose-to-Video
透過姿勢序列強化動作軌跡控制,同時保持物體接觸與互動真實性。
RAP2V:Ref + Audio + Pose-to-Video
同時輸入文字、參考圖、音訊與姿勢,提供最強多模態控制能力。
三項關鍵設計
OmniShow 針對條件融合、音畫同步與異質資料利用提出三項核心方法,系統性改善 HOIVG 痛點。
Unified Channel-wise Conditioning
以偽影格通道拼接注入參考圖與姿勢,並用參考重建損失平衡控制力與生成品質。
Gated Local-Context Attention
透過遮罩局部注意力與自適應門控注入音訊特徵,提升同步準確度並降低模態衝突。
Decoupled-Then-Joint Training
先分別訓練 R2V 與 A2V,再進行權重融合與聯合微調,以提升資料稀缺下的整體能力。
HOIVG-Bench 與綜合品質
在 135 個精選樣本的 HOIVG-Bench 上,OmniShow 在多任務達到 SOTA,且是唯一完整覆蓋 RAP2V 的模型。
評測範圍
同時評估文字、人/物參考圖、音訊與姿勢等多模態條件下的對齊效果。
指標體系
包含 TA、FaceSim、NexusScore、AES、IQA、VQ、MQ、Sync-C、Sync-D、AKD、PCK 等指標。
對比結果
相較 HunyuanCustom、HuMo-17B、VACE、Phantom-14B、AnchorCrafter,OmniShow 在一致性與交互穩定性更強。
可落地的業務方向
OmniShow 適合需要身份穩定、動作可控、音畫同步與真實人-物互動的內容生產流程。
電商與短影片
可生成真人手持或操作商品的演示內容,降低拍攝與後製成本。
內容創作
支援音訊驅動說話或唱歌,並可結合姿勢控制肢體動作。
創意互動
可用於物體替換、影片重混與更豐富的多模態敘事表現。
教育與演示
適合教學講解、虛擬展示與需要精準人-物互動的場景。
為什麼值得關注
OmniShow 在開源影片生成裡具有代表性:它把多模態統一、物理真實性與資料稀缺訓練放在同一框架裡解決。若後續開源生態持續推進,有機會顯著降低互動型影片生產成本。