MatAnyone 2: AIビデオマッティングの新時代

ビデオポストプロダクションの分野において、高品質な背景除去には従来のグリーンバック撮影が長らく「標準」とされてきました。しかし、AI技術の急速な進化により、その常識は完全に覆されようとしています。MMLab@NTU (S-Lab) とSenseTimeが共同で立ち上げたMatAnyone 2は、グリーンバック、スタジオ、専門的な照明なしで、商用レベルの精密なマッティングを実現します。

MatAnyoneからMatAnyone 2への大きな飛躍

MatAnyone (CVPR 2025) は、一貫したメモリ伝播を用いたターゲット指定のビデオマッティングで既に優れた性能を発揮していました。MatAnyone 2 (CVPR 2026) は、現実世界の複雑なシナリオを解決するためにこれを体系的にアップグレードしました。

学習済みマッティング品質評価器 (MQE)

トレーニング中に学習されるピクセルレベルの「品質検査官」。境界領域に正確な監視を提供し、データキュレーション中に高品質な実世界サンプルを自動的にフィルタリングします。境界のディテール品質が27%以上向上しました。

大規模な実世界データセット: VMReal

28,000のビデオクリップと240万フレームを含み、これまでの合成データセットをはるかに凌駕します。これにより、逆光、乱雑な背景、高速な動きなど、困難な実世界のシナリオにおけるモデルの汎化能力が劇的に向上します。

長距離参照フレーム戦略

遠くの参照フレームを導入し、モデルが被写体の元の外観を記憶できるようにします。長いビデオで突然の遮蔽や大きな外観の変化に直面した際の、一般的なちらつきや不連続性を回避します。

コミュニティの反応：「グリーンバックの終焉」

2026年3月のオープンソース化以来、コミュニティからの反響は圧倒的です：

髪の毛、衣服の折り目、半透明の領域は、不自然なセグメンテーションの輪郭ではなく、本物の「自然なエッジ」を示しています。
数十秒、あるいは数分に及ぶ長いビデオでも、目に見えるちらつきがほとんどなく、強力な時間的一貫性を示します。
スマートフォンでカジュアルに撮影された逆光のポートレートや複雑な屋内のシーンでさえ、プログレードのアルファチャンネルが得られます。

MatAnyone 2を素早く体験する方法

最も簡単な方法：オンラインデモ

公式のHugging Face Gradio Demoにアクセスし、ビデオと大まかな最初のフレームのマスク（SAM2やGrounding DINOなどで生成）をアップロードするだけで、数秒から数分で結果を確認できます。

Launch Gradio Demo

ローカルデプロイメント

GPUをお持ちのユーザーは、GitHubリポジトリをクローンし、PythonとPyTorchを使用してローカルで推論を実行できます。

git clone https://github.com/pq-yang/MatAnyone2
cd MatAnyone2
pip install -r requirements.txt
python inference_matanyone2.py -i input.mp4

GitHub Repository

技術的詳細の深掘り

MatAnyone 2 (CVPR 2026, arXiv: 2512.11782) は、大量の合成データセットへの依存から、大規模な実世界データと学習済みの品質監視へと方向転換しました。

1. アーキテクチャの基盤

前作のメモリ伝播パラダイムを継承。コアワークフロー：エンコーダ -> メモリ読み出し -> オブジェクトトランスフォーマ -> デコーダ -> アルファマット。領域適応型メモリ融合モジュールにより、コア領域と境界領域で調整された伝播が可能になります。

2. コアイノベーション：MQE

グラウンドトゥルースなしでピクセルレベルのアルファマットの品質を評価する軽量ネットワーク。セマンティック品質と境界品質の両方を評価します。選択的な損失計算のための「オンラインフィードバック」と、VMRealデータセットを構築するための「オフラインキュレーション」を可能にします。

3. データセット：VMReal

約28,000クリップ / 240万フレーム。ベストビデオモデル（時間的安定性）とベストイメージモデル（境界ディテール）を使用し、MQEを使用して融合したデュアルブランチの自動アノテーションパイプラインを介して構築されました。

4. 参照フレーム戦略

長距離コンテキストメモリのルックアップにより、長いビデオでの壊滅的な忘却を解決し、推論メモリのオーバーヘッドを追加することなく、長いビデオの堅牢性を劇的に向上させます。

5. 損失と監視

Masked Matting Loss（MQEでマークされた信頼できるピクセルのみ）とMQE Evaluation Lossを組み合わせて、包括的なピクセルレベルのガイダンスを提供します。

6. パフォーマンスのハイライト

合成ベンチマークと実世界のテストセット全体で最先端（SOTA）を達成。勾配と接続性の指標は大幅に進歩しており、ちらつきはほぼゼロで、半透明のオブジェクトを完璧に処理します。

概要

MatAnyone 2は、ビデオマッティングを「箱から出してすぐに使える」段階へと押し上げました。技術的な指標だけでなく、使いやすさと堅牢性においても質的な飛躍を遂げています。背景除去はもはや制作前の制約ではなく、ポストプロダクションで手軽に使える「魔法」です。

Project Page Read Paper