MatAnyone 2: Una nueva era de Video Matting con IA

En el campo de la posproducción de video, la grabación tradicional en croma (pantalla verde) ha sido durante mucho tiempo el estándar para la eliminación de fondos de alta calidad. Pero con la rápida iteración de la tecnología de IA, esta regla se está subvirtiendo por completo. MatAnyone 2, lanzado conjuntamente por MMLab@NTU (S-Lab) y SenseTime, permite un matting fino de grado comercial sin pantallas verdes, estudios o iluminación profesional.

El gran salto de MatAnyone a MatAnyone 2

MatAnyone (CVPR 2025) ya sobresalía en el video matting para objetivos específicos utilizando la Propagación Consistente de Memoria. MatAnyone 2 (CVPR 2026) actualiza esto sistemáticamente para resolver escenarios complejos del mundo real.

Evaluador de Calidad de Matting Aprendido (MQE)

Un 'inspector de calidad' a nivel de píxel aprendido durante el entrenamiento. Proporciona una supervisión precisa para las áreas de los bordes y filtra automáticamente muestras del mundo real de alta calidad durante la curación de datos. La calidad de los detalles de los bordes mejoró en más de un 27%.

Conjunto de datos masivo del mundo real: VMReal

Contiene 28,000 videoclips y 2.4 millones de fotogramas, superando con creces los conjuntos de datos sintéticos anteriores. Esto aumenta drásticamente las capacidades de generalización del modelo en escenarios desafiantes del mundo real como la luz de fondo, fondos desordenados y movimientos rápidos.

Estrategia de fotogramas de referencia de largo alcance

Introduce fotogramas de referencia distantes para ayudar al modelo a recordar la apariencia original del sujeto. Evita los parpadeos o discontinuidades comunes cuando se enfrenta a oclusiones repentinas o grandes cambios de apariencia en videos largos.

Reacción de la comunidad: "La pantalla verde ha muerto"

Desde la apertura del código (open-source) en marzo de 2026, los comentarios de la comunidad han sido abrumadores:

El cabello, los pliegues de la ropa y las áreas semitransparentes muestran 'bordes crudos' reales en lugar de contornos de segmentación rígidos.
Los videos largos de decenas de segundos o incluso minutos exhiben una fuerte consistencia temporal casi sin parpadeo visible.
Incluso los retratos a contraluz y las escenas interiores complejas grabadas de manera casual en teléfonos móviles producen canales alfa de nivel profesional.

Cómo experimentar rápidamente MatAnyone 2

La forma más fácil: Demo en línea

Visite la Demo oficial de Hugging Face Gradio, suba un video y una máscara aproximada del primer fotograma (a través de SAM2, Grounding DINO, etc.), y vea los resultados en segundos o minutos.

Launch Gradio Demo

Implementación local

Para usuarios con GPU, clone el repositorio de GitHub y ejecute la inferencia localmente con Python y PyTorch.

git clone https://github.com/pq-yang/MatAnyone2
cd MatAnyone2
pip install -r requirements.txt
python inference_matanyone2.py -i input.mp4

GitHub Repository

Inmersión profunda en los detalles técnicos

MatAnyone 2 (CVPR 2026, arXiv: 2512.11782) pasa de depender de conjuntos de datos sintéticos masivos hacia datos a gran escala del mundo real + supervisión de calidad aprendida.

1. Base de la arquitectura

Heredando el paradigma de Propagación de Memoria de su predecesor. Flujo de trabajo principal: Codificador -> Lectura de memoria -> Object Transformer -> Decodificador -> Alpha Matte. El módulo de Fusión de Memoria Adaptativa a la Región permite una propagación adaptada para las regiones centrales frente a los bordes.

2. Innovación central: MQE

Una red ligera que evalúa la calidad del alpha matte a nivel de píxel sin la verdad básica (ground truth). Evalúa tanto la calidad semántica como la calidad del borde. Permite 'comentarios en línea' para el cálculo selectivo de pérdidas y 'curación fuera de línea' para la construcción del conjunto de datos VMReal.

3. Conjunto de datos: VMReal

Cerca de 28,000 clips / 2.4M de fotogramas. Construido a través de una tubería de auto-anotación de doble rama utilizando un modelo de Mejor Video (para estabilidad temporal) y un modelo de Mejor Imagen (para detalles de borde), fusionados usando MQE.

4. Estrategia de fotogramas de referencia

Resuelve el olvido catastrófico en videos largos a través de la búsqueda de memoria contextual de largo alcance, mejorando drásticamente la robustez en videos largos sin agregar sobrecarga de memoria de inferencia.

5. Pérdida y supervisión

Combina una Pérdida de Matting Enmascarada (solo en píxeles confiables marcados por MQE) y una Pérdida de Evaluación de MQE para proporcionar una guía completa a nivel de píxel.

6. Aspectos destacados del rendimiento

Estado del arte en puntos de referencia sintéticos y conjuntos de pruebas del mundo real. Las métricas de gradiente y conectividad están significativamente por delante, con un parpadeo casi nulo y un manejo impecable de objetos semitransparentes.

Resumen

MatAnyone 2 empuja el video matting a la etapa "lista para usar". Logra un salto cualitativo no solo en métricas técnicas sino también en usabilidad y robustez. La eliminación del fondo ya no es una restricción de preproducción, sino una "magia" de posproducción fácilmente disponible.

Project Page Read Paper