MatAnyone 2：AI 视频抠像新时代

在视频后期制作领域，传统绿幕（绿布）拍摄长期以来是实现高质量背景移除的“标准答案”。但随着 AI 技术的飞速迭代，这一规则正在被彻底颠覆。2025 年底至 2026 年初，南洋理工大学 MMLabNTU（S-Lab）联合 SenseTime 团队推出的 MatAnyone 2，它让“无需棚拍、无需绿幕、无需专业灯光”就能获得接近商用级别的精细抠像成为现实。

从 MatAnyone 到 MatAnyone 2 的重大飞跃

MatAnyone (CVPR 2025) 已经凭借一致性记忆传播机制，在目标指定视频抠像上表现出色。MatAnyone 2 (CVPR 2026) 直接针对真实世界复杂场景进行了系统性升级。

自研的 Matting Quality Evaluator (MQE)

这是一个通过学习得到的像素级“质检员”。它能在训练阶段为边界区域提供更精准的监督信号，在数据清洗阶段自动过滤出高质量样本，大幅提升模型对毛发、半透明物体的处理能力。边界细节质量提升超过 27%。

超大规模真实世界数据集 VMReal

包含 28,000 段视频、总计 240 万帧，远超此前依赖的大量合成数据。这让模型的泛化能力大幅跃升，在逆光、杂乱背景、快速运动等真实拍摄场景下表现更稳。

长程参考帧训练策略

引入远距离参考帧，帮助模型记住人物的原始外观。即使在长视频中出现突然遮挡、新增道具或大幅外观变化，模型也能自动“找回”正确的透明度，避免传统方法常见的闪烁或断层。

实际效果：社区直呼“绿幕已死”

自 2026 年 3 月代码与在线 Demo 开源以来，社区反响热烈：

头发丝、衣服褶边、半透明区域呈现出真正的“毛边”感，而不是生硬的分割轮廓；
长达几十秒甚至几分钟的视频，时间一致性极强，几乎没有肉眼可见的闪烁；
即使是手机随拍的逆光人像、复杂室内背景，也能得到专业级 alpha 通道。

如何快速上手 MatAnyone 2

最简单试用：在线 Demo

访问 Hugging Face 官方 Gradio Demo，上传视频 + 第一帧粗略 mask（可用 SAM2 等自动生成），几秒到几十秒就能看到结果。

Launch Gradio Demo

本地部署（推荐有 GPU 的用户）

克隆 GitHub 仓库，安装依赖并运行推理脚本。输出即为 alpha 序列，可直接用于合成新背景。

git clone https://github.com/pq-yang/MatAnyone2
cd MatAnyone2
pip install -r requirements.txt
python inference_matanyone2.py -i input.mp4

GitHub Repository

MatAnyone 2 技术细节深度解析

不再依赖大量合成数据，而是转向真实世界大规模数据 + 学出来的质量监督。

1. 整体架构基础（继承自 MatAnyone）

延续了前作的记忆传播范式，核心流程：编码器 → 内存读出 → 对象转换器 → 解码器输出 alpha matte。通过区域自适应记忆融合，让记忆传播更适应不同区域（核心区 vs 边界区）。

2. 核心创新：Learned MQE

无需 ground truth 就能像素级评估 quality 的轻量网络。输出像素级的评估图，标记哪些像素可靠、哪些有误差。用于在线训练反馈（只在可靠像素上计算标准 loss）和离线数据清洗。

3. 大规模真实世界数据集：VMReal

通过 MQE 双分支自动标注构建：视频稳定分支（BV）提供核心区稳定语义，图像精细分支（BI）提供边界细节。大幅降低标注成本并保证环境多样性。

4. Reference-Frame 训练策略

在训练时除了相邻帧，额外引入远距离参考帧，强制模型利用长程上下文回忆主体原始外观。显著提升长视频鲁棒性且不增加推理内存开销。

5. 训练损失与监督策略

结合 Masked Matting Loss（基于 MQE 可靠标记）与 MQE Evaluation Loss，实现更全面的像素级指导，强化边界学习。

6. Performance与对比亮点

在合成基准和真实世界测试集上全面 SOTA。边界指标（梯度、连通性等）大幅领先，时间一致性极佳，几乎消除长视频闪烁现象。

总结

MatAnyone 2 真正把视频抠像推向了“开箱即用”的阶段。它不仅在技术指标上达到新高度，更在实用性和鲁棒性上实现了质的飞跃。未来，背景移除不再是拍摄前的限制，而是后期随手可得的“魔法”。

Project Page Read Paper