当前已公开模型中,它率先把文本 + 参考图 + 音频 + 姿势统一到一个端到端生成框架。
OmniShow
面向人-物交互视频生成的一体化多模态模型。
OmniShow 全称为 OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation,由字节跳动、香港中文大学、莫纳什大学和香港大学联合研发并开源。它是当前首个在单模型中完整支持 RAP2V 的端到端框架。
围绕 HOIVG 任务设计,重点解决多条件联合对齐下的人与物体真实交互生成。
支持直接生成连续长镜头,减少多段拼接带来的时序不稳定问题。
基于字节跳动 12B 多模态扩散变换器构建,面向高保真多条件可控视频生成。
Generated with
OmniShow
Explore high-quality 9:16 portrait videos generated by OmniShow, tailored for modern e-commerce and social media platforms.
发布时间、团队与定位
OmniShow 于 2026 年 4 月作为 AI 视频领域的重要开源研究项目发布,明确聚焦多模态条件下的人-物交互视频生成。
发布时间
技术报告(arXiv:2604.11804)约在 2026 年 4 月中旬发布,项目于 2026 年 4 月进入开源节奏。
核心作者
核心作者包括 Donghao Zhou、Guisheng Liu、Jiatong Li(项目 lead)等,通讯作者为 Shilei Wen 与 Pheng-Ann Heng。
核心目标
主要面向电商演示、短视频创作、音频驱动数字人和高交互内容生产等 HOIVG 场景。
一个模型统一四类任务
OmniShow 在单一框架内统一支持 R2V、RA2V、RP2V、RAP2V,不再依赖割裂的多模型流水线。
R2V:Reference-to-Video
参考图像 + 文本,生成高保真外观与自然的人-物交互。
RA2V:Reference + Audio-to-Video
在参考图基础上加入音频条件,保持身份一致并提升动作与语音/声音同步。
RP2V:Reference + Pose-to-Video
引入姿势轨迹强化动作可控性,同时保持物体接触与交互真实性。
RAP2V:Ref + Audio + Pose-to-Video
文本、参考图、音频与姿势同时输入,提供最强多模态控制能力。
三项关键设计
OmniShow 围绕条件融合、音画同步和异构数据利用提出三项核心方法,针对行业痛点进行系统优化。
Unified Channel-wise Conditioning
通过伪帧通道拼接注入参考图和姿势,并结合参考重建损失监督,平衡控制力与生成质量。
Gated Local-Context Attention
用掩码局部上下文注意力与自适应门控注入音频特征,实现更准确音画同步并降低模态冲突。
Decoupled-Then-Joint Training
先分别训练 R2V 与 A2V,再做权重融合与联合微调,在数据稀缺条件下统一多模态能力。
HOIVG-Bench 与综合质量
在 135 条精标样本的 HOIVG-Bench 上,OmniShow 在多项任务中达到 SOTA 表现,并且是唯一覆盖完整 RAP2V 的模型。
评测覆盖
评测同时考察文本、人/物参考图、音频和姿势条件下的多模态对齐效果。
指标体系
指标包含 TA、FaceSim、NexusScore、AES、IQA、VQ、MQ、Sync-C、Sync-D、AKD、PCK 等。
对比结果
相较 HunyuanCustom、HuMo-17B、VACE、Phantom-14B、AnchorCrafter,OmniShow 在多模态一致性与交互真实性上更稳。
可以落地到哪些业务
OmniShow 适用于需要身份稳定、动作可控、音画同步和真实人-物交互的内容生产流程。
电商与短视频
自动生成真人手持或操作产品的演示视频,降低拍摄棚与后期合成成本。
内容创作
支持音频驱动数字人说话/唱歌,并可结合姿势控制肢体动作。
创意互动
可用于物体替换、视频重混和更复杂的多模态叙事内容。
教育与演示
适用于教学讲解、虚拟演示与需要精准人-物互动的表达场景。
为什么值得关注
OmniShow 在开源视频生成里有代表性意义:它把多模态统一、物理真实性和数据稀缺训练三件难事放在同一框架里解决。如果后续开源生态持续推进,有机会显著降低交互类视频生产成本。