2026 年 4 月开源热点

OmniShow

面向人-物交互视频生成的一体化多模态模型。

OmniShow 全称为 OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation，由字节跳动、香港中文大学、莫纳什大学和香港大学联合研发并开源。它是当前首个在单模型中完整支持 RAP2V 的端到端框架。

查看官方 Demo 查看开源资源

框架地位

首个完整 RAP2V

当前已公开模型中，它率先把文本 + 参考图 + 音频 + 姿势统一到一个端到端生成框架。

输入条件

文本 + 参考图 + 音频 + 姿势

围绕 HOIVG 任务设计，重点解决多条件联合对齐下的人与物体真实交互生成。

原生长镜头

最长 10 秒

支持直接生成连续长镜头，减少多段拼接带来的时序不稳定问题。

底座架构

12B Waver 1.0 (MMDiT)

基于字节跳动 12B 多模态扩散变换器构建，面向高保真多条件可控视频生成。

CURATED MOTION SHOWCASE

Generated with
OmniShow

Explore high-quality 9:16 portrait videos generated by OmniShow, tailored for modern e-commerce and social media platforms.

发布背景

发布时间、团队与定位

OmniShow 于 2026 年 4 月作为 AI 视频领域的重要开源研究项目发布，明确聚焦多模态条件下的人-物交互视频生成。

发布时间

技术报告（arXiv:2604.11804）约在 2026 年 4 月中旬发布，项目于 2026 年 4 月进入开源节奏。

核心作者

核心作者包括 Donghao Zhou、Guisheng Liu、Jiatong Li（项目 lead）等，通讯作者为 Shilei Wen 与 Pheng-Ann Heng。

核心目标

主要面向电商演示、短视频创作、音频驱动数字人和高交互内容生产等 HOIVG 场景。

生成模式

一个模型统一四类任务

OmniShow 在单一框架内统一支持 R2V、RA2V、RP2V、RAP2V，不再依赖割裂的多模型流水线。

R2V：Reference-to-Video

参考图像 + 文本，生成高保真外观与自然的人-物交互。

RA2V：Reference + Audio-to-Video

在参考图基础上加入音频条件，保持身份一致并提升动作与语音/声音同步。

RP2V：Reference + Pose-to-Video

引入姿势轨迹强化动作可控性，同时保持物体接触与交互真实性。

RAP2V：Ref + Audio + Pose-to-Video

文本、参考图、音频与姿势同时输入，提供最强多模态控制能力。

技术创新

三项关键设计

OmniShow 围绕条件融合、音画同步和异构数据利用提出三项核心方法，针对行业痛点进行系统优化。

Unified Channel-wise Conditioning

通过伪帧通道拼接注入参考图和姿势，并结合参考重建损失监督，平衡控制力与生成质量。

Gated Local-Context Attention

用掩码局部上下文注意力与自适应门控注入音频特征，实现更准确音画同步并降低模态冲突。

Decoupled-Then-Joint Training

先分别训练 R2V 与 A2V，再做权重融合与联合微调，在数据稀缺条件下统一多模态能力。

性能表现

HOIVG-Bench 与综合质量

在 135 条精标样本的 HOIVG-Bench 上，OmniShow 在多项任务中达到 SOTA 表现，并且是唯一覆盖完整 RAP2V 的模型。

评测覆盖

评测同时考察文本、人/物参考图、音频和姿势条件下的多模态对齐效果。

指标体系

指标包含 TA、FaceSim、NexusScore、AES、IQA、VQ、MQ、Sync-C、Sync-D、AKD、PCK 等。

对比结果

相较 HunyuanCustom、HuMo-17B、VACE、Phantom-14B、AnchorCrafter，OmniShow 在多模态一致性与交互真实性上更稳。

开源资源

官方链接与当前状态

项目页已提供丰富 Demo。GitHub 显示代码仍在 internal review 阶段，后续会持续补充开源内容。

项目官网

可直接查看 Gallery 与 R2V/RA2V/RP2V/RAP2V 对比演示。

打开链接

GitHub 仓库

官方代码仓库与更新入口，当前仍处于 internal review 阶段。

打开链接

论文 PDF

OmniShow 技术报告（arXiv:2604.11804）。

打开链接

HOIVG-Bench 数据集

用于多模态 HOIVG 评测的数据集，包含文本、参考图、音频与姿势信息。

打开链接

应用场景

可以落地到哪些业务

OmniShow 适用于需要身份稳定、动作可控、音画同步和真实人-物交互的内容生产流程。

电商与短视频

自动生成真人手持或操作产品的演示视频，降低拍摄棚与后期合成成本。

内容创作

支持音频驱动数字人说话/唱歌，并可结合姿势控制肢体动作。

创意互动

可用于物体替换、视频重混和更复杂的多模态叙事内容。

教育与演示

适用于教学讲解、虚拟演示与需要精准人-物互动的表达场景。

为什么值得关注

OmniShow 在开源视频生成里有代表性意义：它把多模态统一、物理真实性和数据稀缺训练三件难事放在同一框架里解决。如果后续开源生态持续推进，有机会显著降低交互类视频生产成本。

OmniShow

Generated with OmniShow

发布时间、团队与定位

发布时间

核心作者

核心目标

一个模型统一四类任务

R2V：Reference-to-Video

RA2V：Reference + Audio-to-Video

RP2V：Reference + Pose-to-Video

RAP2V：Ref + Audio + Pose-to-Video

三项关键设计

Unified Channel-wise Conditioning

Gated Local-Context Attention

Decoupled-Then-Joint Training

HOIVG-Bench 与综合质量

评测覆盖

指标体系

对比结果

官方链接与当前状态

项目官网

GitHub 仓库

论文 PDF

HOIVG-Bench 数据集

可以落地到哪些业务

电商与短视频

内容创作

创意互动

教育与演示

为什么值得关注

Generated with
OmniShow