텍스트, 참조 이미지, 오디오, 포즈를 하나의 end-to-end 프레임워크로 통합한 첫 공개 모델입니다.
OmniShow
사람-사물 상호작용 영상을 위한 올인원 모델.
OmniShow(OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation)는 ByteDance, 홍콩중문대, 모나시대, 홍콩대가 공동으로 개발한 모델입니다. 단일 모델에서 RAP2V를 완전 지원하는 최초의 end-to-end 프레임워크입니다.
HOIVG에 특화되어 4개 모달리티를 정렬해 현실적인 사람-사물 상호작용 영상을 생성합니다.
최대 10초의 연속 장면을 직접 생성해 다단계 이어붙이기 부담을 줄입니다.
ByteDance의 12B 멀티모달 확산 Transformer를 기반으로 고충실도 제어형 비디오 생성을 지원합니다.
Generated with
OmniShow
Explore high-quality 9:16 portrait videos generated by OmniShow, tailored for modern e-commerce and social media platforms.
출시 시점, 팀, 목표
OmniShow는 2026년 4월 공개된 주요 오픈 연구로, 멀티모달 조건에서의 실용적인 HOIVG 생성에 초점을 맞춥니다.
출시 시점
기술 보고서(arXiv:2604.11804)는 2026년 4월 중순 공개되었고, 같은 달 오픈소스 공개가 시작되었습니다.
핵심 기여자
Donghao Zhou, Guisheng Liu, Jiatong Li(project lead) 등이 핵심 저자이며 교신저자는 Shilei Wen, Pheng-Ann Heng입니다.
적용 대상
이커머스 데모, 숏폼 콘텐츠, 오디오 구동 아바타 등 사람-사물 상호작용이 중요한 HOIVG 시나리오를 목표로 합니다.
하나의 모델로 4개 작업
OmniShow는 R2V, RA2V, RP2V, RAP2V를 단일 모델에서 처리해 분리된 작업별 파이프라인을 줄입니다.
R2V: Reference-to-Video
참조 이미지와 텍스트로 고충실도 외형과 자연스러운 상호작용을 생성합니다.
RA2V: Reference + Audio-to-Video
오디오 조건을 추가해 인물 정체성을 유지하면서 동작/표정 동기화를 강화합니다.
RP2V: Reference + Pose-to-Video
포즈 궤적으로 동작 제어를 강화하면서 물체 접촉의 현실성을 유지합니다.
RAP2V: Ref + Audio + Pose-to-Video
텍스트, 참조 이미지, 오디오, 포즈를 함께 사용해 가장 강한 멀티모달 제어를 제공합니다.
핵심 설계 3가지
OmniShow는 조건 융합, 음성-영상 동기화, 이기종 데이터 활용 문제를 세 가지 설계로 해결합니다.
Unified Channel-wise Conditioning
의사 프레임 채널 결합과 참조 재구성 손실을 통해 제어력과 생성 품질의 균형을 맞춥니다.
Gated Local-Context Attention
마스크 로컬 어텐션과 적응형 게이트로 오디오를 주입해 동기화 정확도를 높이고 모달 충돌을 줄입니다.
Decoupled-Then-Joint Training
R2V/A2V를 분리 학습 후 가중치 융합 및 공동 미세조정으로 데이터 희소 환경에서 성능을 높입니다.
HOIVG-Bench 결과
HOIVG-Bench(135개 샘플)에서 OmniShow는 다수의 과제에서 SOTA 수준을 보이며, 완전 RAP2V를 지원하는 모델로 보고됩니다.
평가 범위
텍스트, 인물/물체 참조, 오디오, 포즈 조건을 포함한 멀티모달 정렬 성능을 평가합니다.
지표 구성
TA, FaceSim, NexusScore, AES, IQA, VQ, MQ, Sync-C, Sync-D, AKD, PCK 등으로 품질과 정렬을 측정합니다.
비교 결과
HunyuanCustom, HuMo-17B, VACE, Phantom-14B, AnchorCrafter 대비 정렬성과 상호작용 안정성이 우수합니다.
공식 링크와 현재 상태
프로젝트 페이지에는 다양한 데모가 공개되어 있습니다. GitHub는 internal review 단계이며 이후 공개 범위가 확대될 예정입니다.
활용 가능한 분야
OmniShow는 정체성 유지, 현실적인 물체 접촉, 멀티모달 제어가 동시에 필요한 제작 워크플로에 적합합니다.
이커머스/숏폼
제품을 들거나 조작하는 데모 영상을 자동 생성해 촬영 비용을 절감합니다.
콘텐츠 제작
오디오 구동 말하기/노래 표현과 포즈 조건 기반 동작 제어를 지원합니다.
크리에이티브 인터랙션
오브젝트 교체, 리믹스, 복합 연출 등 창의적 콘텐츠 제작에 활용할 수 있습니다.
교육/프레젠테이션
설명형 데모, 가상 시연, 정밀한 사람-사물 상호작용이 필요한 장면에 적합합니다.
왜 중요한가
OmniShow는 HOIVG에서 멀티모달 통합, 물리적 사실성, 데이터 부족 문제를 동시에 다루는 의미 있는 오픈 모델입니다.