2026年4月の注目オープンソース

OmniShow

人と物体の相互作用動画を一つのモデルで生成。

OmniShow(OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation)は、ByteDance、香港中文大学、Monash University、香港大学が共同開発したモデルです。単一モデルで RAP2V を完全サポートする初のエンドツーエンド枠組みです。

フレームワークの位置づけ
初の完全 RAP2V

テキスト・参照画像・音声・ポーズを一つのエンドツーエンド枠組みに統合した最初の公開モデルです。

統合入力
Text + Ref + Audio + Pose

HOIVG に特化し、4種類の条件を整合させて自然な人-物体インタラクションを生成します。

生成可能尺
最長10秒

最大10秒の連続ショットを直接生成し、分割生成のつなぎ合わせ負担を軽減します。

基盤モデル
12B Waver 1.0 (MMDiT)

ByteDance の 12B マルチモーダル拡散 Transformer を基盤に高忠実度な条件付き動画生成を実現します。

背景

公開時期・チーム・狙い

OmniShow は 2026 年 4 月に主要なオープン研究として公開され、マルチモーダル条件下での実用的な HOIVG に焦点を当てています。

公開タイミング

技術報告(arXiv:2604.11804)は 2026 年 4 月中旬に公開され、同月にオープンソース展開が始まりました。

主要メンバー

Donghao Zhou、Guisheng Liu、Jiatong Li(project lead)らが中心で、責任著者は Shilei Wen と Pheng-Ann Heng です。

対象領域

EC デモ、短尺動画、音声駆動アバターなど、人と物体の相互作用が重要な HOIVG シナリオを対象とします。

生成モード

1モデルで4タスク

OmniShow は R2V、RA2V、RP2V、RAP2V を単一モデルで統合し、分断された個別パイプラインを不要にします。

R2V: Reference-to-Video

参照画像とテキストから高忠実度の外観と自然な相互作用を生成します。

RA2V: Reference + Audio-to-Video

音声条件を追加し、同一人物性を保ちながら動作と発話同期を高めます。

RP2V: Reference + Pose-to-Video

ポーズ軌跡で動き制御を強化しつつ、物体接触の自然さを維持します。

RAP2V: Ref + Audio + Pose-to-Video

テキスト・参照画像・音声・ポーズを同時入力し、最も強いマルチモーダル制御を提供します。

技術革新

3つの主要設計

条件融合、音声同期、異種データ活用という課題に対して、OmniShow は3つの協調的な設計を採用しています。

Unified Channel-wise Conditioning

擬似フレームのチャネル連結と再構成損失により、制御性と生成品質の両立を図ります。

Gated Local-Context Attention

マスク付き局所注意と適応ゲートで音声を注入し、同期精度を高めつつ特徴衝突を抑えます。

Decoupled-Then-Joint Training

R2V/A2V を先に分離学習し、その後の重み融合と共同微調整でデータ不足下の性能を高めます。

性能

HOIVG-Bench での結果

HOIVG-Bench(135 サンプル)で OmniShow は複数タスクにおいて SOTA 水準を示し、完全な RAP2V 対応モデルとして報告されています。

評価範囲

テキスト、人物/物体参照、音声、ポーズを含む条件付き生成を包括的に評価します。

評価指標

TA、FaceSim、NexusScore、AES、IQA、VQ、MQ、Sync-C、Sync-D、AKD、PCK を用いて品質と整合性を測定します。

比較結果

HunyuanCustom、HuMo-17B、VACE、Phantom-14B、AnchorCrafter と比較して整合性と相互作用安定性が高い傾向です。

リソース

公式リンクと公開状況

プロジェクトページには多数のデモが公開済みです。GitHub は internal review 状態で、今後さらに公開内容が拡充される予定です。

プロジェクトページ

R2V、RA2V、RP2V、RAP2V の比較デモとギャラリーを閲覧できます。

リンクを開く

GitHub リポジトリ

公式コードと更新状況の公開先です。現時点では internal review 中です。

リンクを開く

論文 PDF

OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation。

リンクを開く

HOIVG-Bench データセット

テキスト、参照、音声、ポーズを含む HOIVG 評価用データセットです。

リンクを開く
活用シーン

適用可能なユースケース

OmniShow は、人物の一貫性、物体接触の自然さ、マルチモーダル制御を同時に必要とする制作フローに適しています。

EC・短尺動画

商品を持つ・操作するデモ動画を自動生成し、撮影コストを下げます。

コンテンツ制作

音声駆動の話者・歌唱表現に加え、ポーズ条件で身体動作を制御できます。

クリエイティブ表現

オブジェクト置換、リミックス、複合演出などの制作に活用できます。

教育・プレゼン

説明動画、仮想デモ、精密な人-物体インタラクションが必要な用途に有効です。

なぜ重要か

OmniShow は、HOIVG におけるマルチモーダル統合、物理的な自然さ、データ不足下での学習を同時に扱う点で重要です。

© 2026 wan2.video