MatAnyone 2:AI 视频抠像新时代
在视频后期制作领域,传统绿幕(绿布)拍摄长期以来是实现高质量背景移除的“标准答案”。但随着 AI 技术的飞速迭代,这一规则正在被彻底颠覆。2025 年底至 2026 年初,南洋理工大学 MMLabNTU(S-Lab)联合 SenseTime 团队推出的 MatAnyone 2,它让“无需棚拍、无需绿幕、无需专业灯光”就能获得接近商用级别的精细抠像成为现实。
从 MatAnyone 到 MatAnyone 2 的重大飞跃
MatAnyone (CVPR 2025) 已经凭借一致性记忆传播机制,在目标指定视频抠像上表现出色。MatAnyone 2 (CVPR 2026) 直接针对真实世界复杂场景进行了系统性升级。
自研的 Matting Quality Evaluator (MQE)
这是一个通过学习得到的像素级“质检员”。它能在训练阶段为边界区域提供更精准的监督信号,在数据清洗阶段自动过滤出高质量样本,大幅提升模型对毛发、半透明物体的处理能力。边界细节质量提升超过 27%。
超大规模真实世界数据集 VMReal
包含 28,000 段视频、总计 240 万帧,远超此前依赖的大量合成数据。这让模型的泛化能力大幅跃升,在逆光、杂乱背景、快速运动等真实拍摄场景下表现更稳。
长程参考帧训练策略
引入远距离参考帧,帮助模型记住人物的原始外观。即使在长视频中出现突然遮挡、新增道具或大幅外观变化,模型也能自动“找回”正确的透明度,避免传统方法常见的闪烁或断层。
实际效果:社区直呼“绿幕已死”
自 2026 年 3 月代码与在线 Demo 开源以来,社区反响热烈:
- 头发丝、衣服褶边、半透明区域呈现出真正的“毛边”感,而不是生硬的分割轮廓;
- 长达几十秒甚至几分钟的视频,时间一致性极强,几乎没有肉眼可见的闪烁;
- 即使是手机随拍的逆光人像、复杂室内背景,也能得到专业级 alpha 通道。
如何快速上手 MatAnyone 2
最简单试用:在线 Demo
访问 Hugging Face 官方 Gradio Demo,上传视频 + 第一帧粗略 mask(可用 SAM2 等自动生成),几秒到几十秒就能看到结果。
Launch Gradio Demo本地部署(推荐有 GPU 的用户)
克隆 GitHub 仓库,安装依赖并运行推理脚本。输出即为 alpha 序列,可直接用于合成新背景。
git clone https://github.com/pq-yang/MatAnyone2
cd MatAnyone2
pip install -r requirements.txt
python inference_matanyone2.py -i input.mp4MatAnyone 2 技术细节深度解析
不再依赖大量合成数据,而是转向真实世界大规模数据 + 学出来的质量监督。
1. 整体架构基础(继承自 MatAnyone)
延续了前作的记忆传播范式,核心流程:编码器 → 内存读出 → 对象转换器 → 解码器输出 alpha matte。通过区域自适应记忆融合,让记忆传播更适应不同区域(核心区 vs 边界区)。
2. 核心创新:Learned MQE
无需 ground truth 就能像素级评估 quality 的轻量网络。输出像素级的评估图,标记哪些像素可靠、哪些有误差。用于在线训练反馈(只在可靠像素上计算标准 loss)和离线数据清洗。
3. 大规模真实世界数据集:VMReal
通过 MQE 双分支自动标注构建:视频稳定分支(BV)提供核心区稳定语义,图像精细分支(BI)提供边界细节。大幅降低标注成本并保证环境多样性。
4. Reference-Frame 训练策略
在训练时除了相邻帧,额外引入远距离参考帧,强制模型利用长程上下文回忆主体原始外观。显著提升长视频鲁棒性且不增加推理内存开销。
5. 训练损失与监督策略
结合 Masked Matting Loss(基于 MQE 可靠标记)与 MQE Evaluation Loss,实现更全面的像素级指导,强化边界学习。
6. Performance与对比亮点
在合成基准和真实世界测试集上全面 SOTA。边界指标(梯度、连通性等)大幅领先,时间一致性极佳,几乎消除长视频闪烁现象。
总结
MatAnyone 2 真正把视频抠像推向了“开箱即用”的阶段。它不仅在技术指标上达到新高度,更在实用性和鲁棒性上实现了质的飞跃。未来,背景移除不再是拍摄前的限制,而是后期随手可得的“魔法”。