MatAnyone 2：AI 影片去背新時代

在影片後期製作領域，傳統綠幕拍攝長期以來是實現高品質背景移除的「標準答案」。但隨著 AI 技術的飛速迭代，這一規則正在被徹底顛覆。2025 年底至 2026 年初，南洋理工大學 MMLab@NTU（S-Lab）聯合 SenseTime 團隊推出的 MatAnyone 2，讓「無需棚拍、無需綠幕、無需專業燈光」就能獲得接近商用級別的精細去背成為現實。

從 MatAnyone 到 MatAnyone 2 的重大飛躍

MatAnyone (CVPR 2025) 已經憑藉一致性記憶傳播機制，在目標指定影片去背上表現出色。MatAnyone 2 (CVPR 2026) 直接針對真實世界複雜場景進行了系統性升級。

自主研發的去背品質評估器 (MQE)

這是一個透過學習得到的像素級「質檢員」。它能在訓練階段為邊界區域提供更精準的監督訊號，在數據清洗階段自動過濾出高品質樣本，大幅提升模型對毛髮、半透明物體的處理能力。邊界細節品質提升超過 27%。

超大規模真實世界資料集 VMReal

包含 28,000 段影片、總計 240 萬幀，遠超此前依賴的大量合成數據。這讓模型的泛化能力大幅躍升，在逆光、雜亂背景、快速運動等真實拍攝場景下表現更穩。

長程參考幀訓練策略

引入遠距離參考幀，幫助模型記住人物的原始外觀。即使在長影片中出現突然遮擋、新增道具或大幅外觀變化，模型也能自動「找回」正確的透明度，避免傳統方法常見的閃爍或斷層。

實際效果：社群直呼「綠幕已死」

自 2026 年 3 月程式碼與線上 Demo 開源以來，社群反響熱烈：

頭髮絲、衣服褶邊、半透明區域呈現出真正的「毛邊」感，而不是生硬的分割輪廓；
長達幾十秒甚至幾分鐘的影片，時間一致性極強，幾乎沒有肉眼可見的閃爍；
即使是手機隨拍的逆光人像、複雜室內背景，也能得到專業級 alpha 通道。

如何快速上手 MatAnyone 2

最簡單試用：線上 Demo

造訪 Hugging Face 官方 Gradio Demo，上傳影片與第一幀粗略 mask（可用 SAM2 等自動生成），幾秒到幾十秒就能看到結果。

Launch Gradio Demo

本地部署（推薦有 GPU 的使用者）

複製 GitHub 儲存庫，安裝相依套件並執行推理腳本。輸出即為 alpha 序列，可直接用於合成新背景。

git clone https://github.com/pq-yang/MatAnyone2
cd MatAnyone2
pip install -r requirements.txt
python inference_matanyone2.py -i input.mp4

GitHub Repository

MatAnyone 2 技術細節深度解析

不再依賴大量合成數據，而是轉向真實世界大規模數據加上學出來的品質監督。

1. 整體架構基礎（繼承自 MatAnyone）

延續了前作的記憶傳播範式，核心流程：編碼器 → 記憶體讀出 → 物件轉換器 → 解碼器輸出 alpha matte。透過區域自適應記憶融合，讓記憶傳播更適應不同區域（核心區 vs 邊界區）。

2. 核心創新：Learned MQE

無需 ground truth 就能像素級評估品質的輕量網路。輸出像素級的評估圖，標記哪些像素可靠、哪些有誤差。用於線上訓練回饋（只在可靠像素上計算標準 loss）和離線數據清洗。

3. 大規模真實世界資料集：VMReal

透過 MQE 雙分支自動標註建構：影片穩定分支（BV）提供核心區穩定語意，影像精細分支（BI）提供邊界細節。大幅降低標註成本並保證環境多樣性。

4. Reference-Frame 訓練策略

在訓練時除了相鄰幀，額外引入遠距離參考幀，強制模型利用長程上下文回憶主體原始外觀。顯著提升長影片強健性且不增加推理記憶體開銷。

5. 訓練損失與監督策略

結合 Masked Matting Loss（基於 MQE 可靠標記）與 MQE Evaluation Loss，實現更全面的像素級指導，強化邊界學習。

6. 效能與對比亮點

在合成基準和真實世界測試集上全面 SOTA。邊界指標（梯度、連通性等）大幅領先，時間一致性極佳，幾乎消除長影片閃爍現象。

總結

MatAnyone 2 真正把影片去背推向了「開箱即用」的階段。它不僅在技術指標上達到新高度，更在實用性和強健性上實現了質的飛躍。未來，背景移除不再是拍攝前的限制，而是後期隨手可得的「魔法」。

Project Page Read Paper