2026 年 4 月开源热点

OmniShow

面向人-物交互视频生成的一体化多模态模型。

OmniShow 全称为 OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation,由字节跳动、香港中文大学、莫纳什大学和香港大学联合研发并开源。它是当前首个在单模型中完整支持 RAP2V 的端到端框架。

框架地位
首个完整 RAP2V

当前已公开模型中,它率先把文本 + 参考图 + 音频 + 姿势统一到一个端到端生成框架。

输入条件
文本 + 参考图 + 音频 + 姿势

围绕 HOIVG 任务设计,重点解决多条件联合对齐下的人与物体真实交互生成。

原生长镜头
最长 10 秒

支持直接生成连续长镜头,减少多段拼接带来的时序不稳定问题。

底座架构
12B Waver 1.0 (MMDiT)

基于字节跳动 12B 多模态扩散变换器构建,面向高保真多条件可控视频生成。

发布背景

发布时间、团队与定位

OmniShow 于 2026 年 4 月作为 AI 视频领域的重要开源研究项目发布,明确聚焦多模态条件下的人-物交互视频生成。

发布时间

技术报告(arXiv:2604.11804)约在 2026 年 4 月中旬发布,项目于 2026 年 4 月进入开源节奏。

核心作者

核心作者包括 Donghao Zhou、Guisheng Liu、Jiatong Li(项目 lead)等,通讯作者为 Shilei Wen 与 Pheng-Ann Heng。

核心目标

主要面向电商演示、短视频创作、音频驱动数字人和高交互内容生产等 HOIVG 场景。

生成模式

一个模型统一四类任务

OmniShow 在单一框架内统一支持 R2V、RA2V、RP2V、RAP2V,不再依赖割裂的多模型流水线。

R2V:Reference-to-Video

参考图像 + 文本,生成高保真外观与自然的人-物交互。

RA2V:Reference + Audio-to-Video

在参考图基础上加入音频条件,保持身份一致并提升动作与语音/声音同步。

RP2V:Reference + Pose-to-Video

引入姿势轨迹强化动作可控性,同时保持物体接触与交互真实性。

RAP2V:Ref + Audio + Pose-to-Video

文本、参考图、音频与姿势同时输入,提供最强多模态控制能力。

技术创新

三项关键设计

OmniShow 围绕条件融合、音画同步和异构数据利用提出三项核心方法,针对行业痛点进行系统优化。

Unified Channel-wise Conditioning

通过伪帧通道拼接注入参考图和姿势,并结合参考重建损失监督,平衡控制力与生成质量。

Gated Local-Context Attention

用掩码局部上下文注意力与自适应门控注入音频特征,实现更准确音画同步并降低模态冲突。

Decoupled-Then-Joint Training

先分别训练 R2V 与 A2V,再做权重融合与联合微调,在数据稀缺条件下统一多模态能力。

性能表现

HOIVG-Bench 与综合质量

在 135 条精标样本的 HOIVG-Bench 上,OmniShow 在多项任务中达到 SOTA 表现,并且是唯一覆盖完整 RAP2V 的模型。

评测覆盖

评测同时考察文本、人/物参考图、音频和姿势条件下的多模态对齐效果。

指标体系

指标包含 TA、FaceSim、NexusScore、AES、IQA、VQ、MQ、Sync-C、Sync-D、AKD、PCK 等。

对比结果

相较 HunyuanCustom、HuMo-17B、VACE、Phantom-14B、AnchorCrafter,OmniShow 在多模态一致性与交互真实性上更稳。

开源资源

官方链接与当前状态

项目页已提供丰富 Demo。GitHub 显示代码仍在 internal review 阶段,后续会持续补充开源内容。

项目官网

可直接查看 Gallery 与 R2V/RA2V/RP2V/RAP2V 对比演示。

打开链接

GitHub 仓库

官方代码仓库与更新入口,当前仍处于 internal review 阶段。

打开链接

论文 PDF

OmniShow 技术报告(arXiv:2604.11804)。

打开链接

HOIVG-Bench 数据集

用于多模态 HOIVG 评测的数据集,包含文本、参考图、音频与姿势信息。

打开链接
应用场景

可以落地到哪些业务

OmniShow 适用于需要身份稳定、动作可控、音画同步和真实人-物交互的内容生产流程。

电商与短视频

自动生成真人手持或操作产品的演示视频,降低拍摄棚与后期合成成本。

内容创作

支持音频驱动数字人说话/唱歌,并可结合姿势控制肢体动作。

创意互动

可用于物体替换、视频重混和更复杂的多模态叙事内容。

教育与演示

适用于教学讲解、虚拟演示与需要精准人-物互动的表达场景。

为什么值得关注

OmniShow 在开源视频生成里有代表性意义:它把多模态统一、物理真实性和数据稀缺训练三件难事放在同一框架里解决。如果后续开源生态持续推进,有机会显著降低交互类视频生产成本。

© 2026 wan2.video