2026 年 4 月開源焦點

OmniShow

面向人-物互動影片生成的一體化多模態模型。

OmniShow 全稱 OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation,由字節跳動、香港中文大學、莫納什大學與香港大學聯合研發並開源。它是目前首個在單模型中完整支援 RAP2V 的端到端框架。

框架地位
首個完整 RAP2V

在已公開模型中,率先把文字、參考圖、音訊與姿勢統一到同一個端到端框架。

輸入條件
文字 + 參考圖 + 音訊 + 姿勢

專為 HOIVG 設計,重點提升多條件對齊下的人-物互動真實性。

原生長鏡頭
最長 10 秒

可直接生成連續長鏡頭,降低多段拼接帶來的時序不穩定。

底座架構
12B Waver 1.0 (MMDiT)

基於字節跳動 12B 多模態擴散變換器,面向高保真可控影片生成。

發布背景

時間、團隊與定位

OmniShow 於 2026 年 4 月作為 AI 影片領域的重要開源研究發布,聚焦多模態條件下的人-物互動生成。

發布時間

技術報告(arXiv:2604.11804)約於 2026 年 4 月中旬發表,專案同月進入開源節奏。

核心作者

核心作者包括 Donghao Zhou、Guisheng Liu、Jiatong Li(project lead)等,通訊作者為 Shilei Wen 與 Pheng-Ann Heng。

核心目標

主要面向電商展示、短影片內容、音訊驅動數位人與高互動場景的 HOIVG 任務。

生成模式

單模型統一四種任務

OmniShow 在同一框架內統一支援 R2V、RA2V、RP2V、RAP2V,降低多模型管線複雜度。

R2V:Reference-to-Video

輸入參考圖與文字,生成高保真外觀與自然的人-物互動。

RA2V:Reference + Audio-to-Video

在參考圖基礎上加入音訊條件,維持身份一致並提升音畫同步。

RP2V:Reference + Pose-to-Video

透過姿勢序列強化動作軌跡控制,同時保持物體接觸與互動真實性。

RAP2V:Ref + Audio + Pose-to-Video

同時輸入文字、參考圖、音訊與姿勢,提供最強多模態控制能力。

技術創新

三項關鍵設計

OmniShow 針對條件融合、音畫同步與異質資料利用提出三項核心方法,系統性改善 HOIVG 痛點。

Unified Channel-wise Conditioning

以偽影格通道拼接注入參考圖與姿勢,並用參考重建損失平衡控制力與生成品質。

Gated Local-Context Attention

透過遮罩局部注意力與自適應門控注入音訊特徵,提升同步準確度並降低模態衝突。

Decoupled-Then-Joint Training

先分別訓練 R2V 與 A2V,再進行權重融合與聯合微調,以提升資料稀缺下的整體能力。

性能表現

HOIVG-Bench 與綜合品質

在 135 個精選樣本的 HOIVG-Bench 上,OmniShow 在多任務達到 SOTA,且是唯一完整覆蓋 RAP2V 的模型。

評測範圍

同時評估文字、人/物參考圖、音訊與姿勢等多模態條件下的對齊效果。

指標體系

包含 TA、FaceSim、NexusScore、AES、IQA、VQ、MQ、Sync-C、Sync-D、AKD、PCK 等指標。

對比結果

相較 HunyuanCustom、HuMo-17B、VACE、Phantom-14B、AnchorCrafter,OmniShow 在一致性與交互穩定性更強。

開源資源

官方連結與最新狀態

專案頁已提供大量 Demo。GitHub 顯示目前仍在 internal review,後續將持續補齊完整開源內容。

專案官網

可直接查看 Gallery 與 R2V/RA2V/RP2V/RAP2V 對比示例。

開啟連結

GitHub 倉庫

官方程式碼與更新入口,推理腳本與權重仍在審核流程中。

開啟連結

論文 PDF

OmniShow 技術報告(arXiv:2604.11804)。

開啟連結

HOIVG-Bench 資料集

用於多模態 HOIVG 評測,包含文字、參考圖、音訊與姿勢資訊。

開啟連結
應用場景

可落地的業務方向

OmniShow 適合需要身份穩定、動作可控、音畫同步與真實人-物互動的內容生產流程。

電商與短影片

可生成真人手持或操作商品的演示內容,降低拍攝與後製成本。

內容創作

支援音訊驅動說話或唱歌,並可結合姿勢控制肢體動作。

創意互動

可用於物體替換、影片重混與更豐富的多模態敘事表現。

教育與演示

適合教學講解、虛擬展示與需要精準人-物互動的場景。

為什麼值得關注

OmniShow 在開源影片生成裡具有代表性:它把多模態統一、物理真實性與資料稀缺訓練放在同一框架裡解決。若後續開源生態持續推進,有機會顯著降低互動型影片生產成本。

© 2026 wan2.video