2026 年 4 月開源焦點

OmniShow

面向人-物互動影片生成的一體化多模態模型。

OmniShow 全稱 OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation，由字節跳動、香港中文大學、莫納什大學與香港大學聯合研發並開源。它是目前首個在單模型中完整支援 RAP2V 的端到端框架。

查看官方 Demo 查看開源資源

框架地位

首個完整 RAP2V

在已公開模型中，率先把文字、參考圖、音訊與姿勢統一到同一個端到端框架。

輸入條件

文字 + 參考圖 + 音訊 + 姿勢

專為 HOIVG 設計，重點提升多條件對齊下的人-物互動真實性。

原生長鏡頭

最長 10 秒

可直接生成連續長鏡頭，降低多段拼接帶來的時序不穩定。

底座架構

12B Waver 1.0 (MMDiT)

基於字節跳動 12B 多模態擴散變換器，面向高保真可控影片生成。

CURATED MOTION SHOWCASE

Generated with
OmniShow

Explore high-quality 9:16 portrait videos generated by OmniShow, tailored for modern e-commerce and social media platforms.

發布背景

時間、團隊與定位

OmniShow 於 2026 年 4 月作為 AI 影片領域的重要開源研究發布，聚焦多模態條件下的人-物互動生成。

發布時間

技術報告（arXiv:2604.11804）約於 2026 年 4 月中旬發表，專案同月進入開源節奏。

核心作者

核心作者包括 Donghao Zhou、Guisheng Liu、Jiatong Li（project lead）等，通訊作者為 Shilei Wen 與 Pheng-Ann Heng。

核心目標

主要面向電商展示、短影片內容、音訊驅動數位人與高互動場景的 HOIVG 任務。

生成模式

單模型統一四種任務

OmniShow 在同一框架內統一支援 R2V、RA2V、RP2V、RAP2V，降低多模型管線複雜度。

R2V：Reference-to-Video

輸入參考圖與文字，生成高保真外觀與自然的人-物互動。

RA2V：Reference + Audio-to-Video

在參考圖基礎上加入音訊條件，維持身份一致並提升音畫同步。

RP2V：Reference + Pose-to-Video

透過姿勢序列強化動作軌跡控制，同時保持物體接觸與互動真實性。

RAP2V：Ref + Audio + Pose-to-Video

同時輸入文字、參考圖、音訊與姿勢，提供最強多模態控制能力。

技術創新

三項關鍵設計

OmniShow 針對條件融合、音畫同步與異質資料利用提出三項核心方法，系統性改善 HOIVG 痛點。

Unified Channel-wise Conditioning

以偽影格通道拼接注入參考圖與姿勢，並用參考重建損失平衡控制力與生成品質。

Gated Local-Context Attention

透過遮罩局部注意力與自適應門控注入音訊特徵，提升同步準確度並降低模態衝突。

Decoupled-Then-Joint Training

先分別訓練 R2V 與 A2V，再進行權重融合與聯合微調，以提升資料稀缺下的整體能力。

性能表現

HOIVG-Bench 與綜合品質

在 135 個精選樣本的 HOIVG-Bench 上，OmniShow 在多任務達到 SOTA，且是唯一完整覆蓋 RAP2V 的模型。

評測範圍

同時評估文字、人/物參考圖、音訊與姿勢等多模態條件下的對齊效果。

指標體系

包含 TA、FaceSim、NexusScore、AES、IQA、VQ、MQ、Sync-C、Sync-D、AKD、PCK 等指標。

對比結果

相較 HunyuanCustom、HuMo-17B、VACE、Phantom-14B、AnchorCrafter，OmniShow 在一致性與交互穩定性更強。

開源資源

官方連結與最新狀態

專案頁已提供大量 Demo。GitHub 顯示目前仍在 internal review，後續將持續補齊完整開源內容。

專案官網

可直接查看 Gallery 與 R2V/RA2V/RP2V/RAP2V 對比示例。

開啟連結

GitHub 倉庫

官方程式碼與更新入口，推理腳本與權重仍在審核流程中。

開啟連結

論文 PDF

OmniShow 技術報告（arXiv:2604.11804）。

開啟連結

HOIVG-Bench 資料集

用於多模態 HOIVG 評測，包含文字、參考圖、音訊與姿勢資訊。

開啟連結

應用場景

可落地的業務方向

OmniShow 適合需要身份穩定、動作可控、音畫同步與真實人-物互動的內容生產流程。

電商與短影片

可生成真人手持或操作商品的演示內容，降低拍攝與後製成本。

內容創作

支援音訊驅動說話或唱歌，並可結合姿勢控制肢體動作。

創意互動

可用於物體替換、影片重混與更豐富的多模態敘事表現。

教育與演示

適合教學講解、虛擬展示與需要精準人-物互動的場景。

為什麼值得關注

OmniShow 在開源影片生成裡具有代表性：它把多模態統一、物理真實性與資料稀缺訓練放在同一框架裡解決。若後續開源生態持續推進，有機會顯著降低互動型影片生產成本。

OmniShow

Generated with OmniShow

時間、團隊與定位

發布時間

核心作者

核心目標

單模型統一四種任務

R2V：Reference-to-Video

RA2V：Reference + Audio-to-Video

RP2V：Reference + Pose-to-Video

RAP2V：Ref + Audio + Pose-to-Video

三項關鍵設計

Unified Channel-wise Conditioning

Gated Local-Context Attention

Decoupled-Then-Joint Training

HOIVG-Bench 與綜合品質

評測範圍

指標體系

對比結果

官方連結與最新狀態

專案官網

GitHub 倉庫

論文 PDF

HOIVG-Bench 資料集

可落地的業務方向

電商與短影片

內容創作

創意互動

教育與演示

為什麼值得關注

Generated with
OmniShow