MatAnyone 2: AI 비디오 매팅의 새로운 시대

비디오 포스트 프로덕션 분야에서 전통적인 그린 스크린 촬영은 오랫동안 고품질 배경 제거를 위한 '표준'이었습니다. 하지만 AI 기술의 빠른 발전으로 이 규칙은 완전히 뒤집히고 있습니다. MMLab@NTU(S-Lab)와 SenseTime이 공동으로 출시한 MatAnyone 2는 그린 스크린, 스튜디오 또는 전문 조명 없이도 상업용 수준의 정밀한 매팅을 가능하게 합니다.

MatAnyone에서 MatAnyone 2로의 큰 도약

MatAnyone(CVPR 2025)은 일관된 메모리 전파를 사용한 대상 지정 비디오 매팅에서 이미 뛰어난 성능을 보였습니다. MatAnyone 2(CVPR 2026)는 실제 복잡한 시나리오를 해결하기 위해 이를 체계적으로 업그레이드했습니다.

학습된 매팅 품질 평가기(MQE)

학습 중에 훈련된 픽셀 수준의 '품질 검사기'입니다. 경계 영역에 대한 정밀한 감독을 제공하고 데이터 큐레이션 중에 고품질의 실제 샘플을 자동으로 필터링합니다. 경계 디테일 품질이 27% 이상 향상되었습니다.

대규모 실제 데이터셋: VMReal

28,000개의 비디오 클립과 240만 프레임을 포함하여 이전의 합성 데이터셋을 훨씬 능가합니다. 이는 역광, 복잡한 배경, 빠른 움직임과 같은 까다로운 실제 시나리오에서 모델의 일반화 능력을 극적으로 향상시킵니다.

장거리 참조 프레임 전략

먼 참조 프레임을 도입하여 모델이 피사체의 원래 모습을 기억하도록 돕습니다. 긴 비디오에서 갑작스러운 가림이나 큰 외형 변화에 직면했을 때 흔히 발생하는 깜박임이나 불연속성을 방지합니다.

커뮤니티 반응: "그린 스크린의 시대는 끝났다"

2026년 3월 오픈소스 공개 이후, 커뮤니티의 반응은 폭발적입니다:

머리카락, 옷 주름, 반투명 영역은 뻣뻣한 분할 윤곽선이 아닌 실제 '자연스러운 가장자리'를 보여줍니다.
수십 초 또는 심지어 수 분 길이의 긴 비디오도 눈에 띄는 깜박임이 거의 없는 강력한 시간적 일관성을 보여줍니다.
스마트폰으로 가볍게 촬영한 역광 인물 사진이나 복잡한 실내 장면에서도 전문가급 알파 채널을 얻을 수 있습니다.

MatAnyone 2를 빠르게 경험하는 방법

가장 쉬운 방법: 온라인 데모

공식 Hugging Face Gradio Demo를 방문하여 비디오와 대략적인 첫 프레임 마스크(SAM2, Grounding DINO 등을 통해)를 업로드하면 몇 초에서 몇 분 안에 결과를 볼 수 있습니다.

Launch Gradio Demo

로컬 배포

GPU를 사용하는 사용자의 경우 GitHub 리포지토리를 복제하고 Python 및 PyTorch를 사용하여 로컬에서 추론을 실행하세요.

git clone https://github.com/pq-yang/MatAnyone2
cd MatAnyone2
pip install -r requirements.txt
python inference_matanyone2.py -i input.mp4

GitHub Repository

기술 세부 정보 심층 분석

MatAnyone 2(CVPR 2026, arXiv: 2512.11782)는 방대한 합성 데이터셋에 의존하던 방식에서 대규모 실제 데이터 및 학습된 품질 감독으로 방향을 전환했습니다.

1. 아키텍처 기반

이전 버전의 메모리 전파 패러다임을 계승했습니다. 핵심 워크플로우: 인코더 -> 메모리 읽기 -> 객체 트랜스포머 -> 디코더 -> 알파 매트. 영역 적응형 메모리 융합 모듈을 통해 핵심 영역과 경계 영역에 맞춤화된 전파가 가능합니다.

2. 핵심 혁신: MQE

그라운드 트루스 없이 픽셀 수준에서 알파 매트 품질을 평가하는 경량 네트워크입니다. 의미론적 품질과 경계 품질을 모두 평가합니다. 선택적 손실 계산을 위한 '온라인 피드백'과 VMReal 데이터셋 구축을 위한 '오프라인 큐레이션'을 가능하게 합니다.

3. 데이터셋: VMReal

약 28,000개 클립 / 240만 프레임. Best Video 모델(시간적 안정성)과 Best Image 모델(경계 디테일)을 사용한 이중 분기 자동 주석 파이프라인을 통해 구축되었으며, MQE를 사용하여 융합되었습니다.

4. 참조 프레임 전략

장거리 컨텍스트 메모리 조회를 통해 긴 비디오에서의 치명적인 망각을 해결하여, 추론 메모리 오버헤드 추가 없이 긴 비디오에 대한 견고성을 대폭 향상시킵니다.

5. 손실 및 감독

포괄적인 픽셀 수준 가이드를 제공하기 위해 Masked Matting Loss(MQE로 표시된 신뢰할 수 있는 픽셀에만 적용)와 MQE Evaluation Loss를 결합합니다.

6. 성능 하이라이트

합성 벤치마크 및 실제 테스트 세트에서 SOTA(State-of-the-Art) 달성. 그래디언트 및 연결성 지표가 크게 앞서며, 깜박임이 거의 없고 반투명 객체를 완벽하게 처리합니다.

요약

MatAnyone 2는 비디오 매팅을 "즉시 사용 가능한" 단계로 끌어올렸습니다. 기술적 지표뿐만 아니라 사용성과 견고성에서도 질적인 도약을 이루었습니다. 배경 제거는 더 이상 사전 제작의 제약이 아니라, 포스트 프로덕션에서 언제든 사용할 수 있는 "마법"입니다.

Project Page Read Paper