MatAnyone 2:AI 影片去背新時代

在影片後期製作領域,傳統綠幕拍攝長期以來是實現高品質背景移除的「標準答案」。但隨著 AI 技術的飛速迭代,這一規則正在被徹底顛覆。2025 年底至 2026 年初,南洋理工大學 MMLab@NTU(S-Lab)聯合 SenseTime 團隊推出的 MatAnyone 2,讓「無需棚拍、無需綠幕、無需專業燈光」就能獲得接近商用級別的精細去背成為現實。

從 MatAnyone 到 MatAnyone 2 的重大飛躍

MatAnyone (CVPR 2025) 已經憑藉一致性記憶傳播機制,在目標指定影片去背上表現出色。MatAnyone 2 (CVPR 2026) 直接針對真實世界複雜場景進行了系統性升級。

自主研發的去背品質評估器 (MQE)

這是一個透過學習得到的像素級「質檢員」。它能在訓練階段為邊界區域提供更精準的監督訊號,在數據清洗階段自動過濾出高品質樣本,大幅提升模型對毛髮、半透明物體的處理能力。邊界細節品質提升超過 27%。

超大規模真實世界資料集 VMReal

包含 28,000 段影片、總計 240 萬幀,遠超此前依賴的大量合成數據。這讓模型的泛化能力大幅躍升,在逆光、雜亂背景、快速運動等真實拍攝場景下表現更穩。

長程參考幀訓練策略

引入遠距離參考幀,幫助模型記住人物的原始外觀。即使在長影片中出現突然遮擋、新增道具或大幅外觀變化,模型也能自動「找回」正確的透明度,避免傳統方法常見的閃爍或斷層。

Video Matting Magic

實際效果:社群直呼「綠幕已死」

自 2026 年 3 月程式碼與線上 Demo 開源以來,社群反響熱烈:

  • 頭髮絲、衣服褶邊、半透明區域呈現出真正的「毛邊」感,而不是生硬的分割輪廓;
  • 長達幾十秒甚至幾分鐘的影片,時間一致性極強,幾乎沒有肉眼可見的閃爍;
  • 即使是手機隨拍的逆光人像、複雜室內背景,也能得到專業級 alpha 通道。

如何快速上手 MatAnyone 2

最簡單試用:線上 Demo

造訪 Hugging Face 官方 Gradio Demo,上傳影片與第一幀粗略 mask(可用 SAM2 等自動生成),幾秒到幾十秒就能看到結果。

Launch Gradio Demo

本地部署(推薦有 GPU 的使用者)

複製 GitHub 儲存庫,安裝相依套件並執行推理腳本。輸出即為 alpha 序列,可直接用於合成新背景。

git clone https://github.com/pq-yang/MatAnyone2
cd MatAnyone2
pip install -r requirements.txt
python inference_matanyone2.py -i input.mp4
GitHub Repository

MatAnyone 2 技術細節深度解析

不再依賴大量合成數據,而是轉向真實世界大規模數據加上學出來的品質監督。

1. 整體架構基礎(繼承自 MatAnyone)

延續了前作的記憶傳播範式,核心流程:編碼器 → 記憶體讀出 → 物件轉換器 → 解碼器輸出 alpha matte。透過區域自適應記憶融合,讓記憶傳播更適應不同區域(核心區 vs 邊界區)。

2. 核心創新:Learned MQE

無需 ground truth 就能像素級評估品質的輕量網路。輸出像素級的評估圖,標記哪些像素可靠、哪些有誤差。用於線上訓練回饋(只在可靠像素上計算標準 loss)和離線數據清洗。

3. 大規模真實世界資料集:VMReal

透過 MQE 雙分支自動標註建構:影片穩定分支(BV)提供核心區穩定語意,影像精細分支(BI)提供邊界細節。大幅降低標註成本並保證環境多樣性。

4. Reference-Frame 訓練策略

在訓練時除了相鄰幀,額外引入遠距離參考幀,強制模型利用長程上下文回憶主體原始外觀。顯著提升長影片強健性且不增加推理記憶體開銷。

5. 訓練損失與監督策略

結合 Masked Matting Loss(基於 MQE 可靠標記)與 MQE Evaluation Loss,實現更全面的像素級指導,強化邊界學習。

6. 效能與對比亮點

在合成基準和真實世界測試集上全面 SOTA。邊界指標(梯度、連通性等)大幅領先,時間一致性極佳,幾乎消除長影片閃爍現象。

總結

MatAnyone 2 真正把影片去背推向了「開箱即用」的階段。它不僅在技術指標上達到新高度,更在實用性和強健性上實現了質的飛躍。未來,背景移除不再是拍攝前的限制,而是後期隨手可得的「魔法」。

© 2026 wan2.video