MatAnyone 2 : Une nouvelle ère pour le détourage vidéo par IA

Dans le domaine de la post-production vidéo, le tournage traditionnel sur fond vert a longtemps été la norme pour la suppression d'arrière-plan de haute qualité. Mais avec l'itération rapide de la technologie de l'IA, cette règle est en train d'être complètement bouleversée. MatAnyone 2, lancé conjointement par MMLab@NTU (S-Lab) et SenseTime, permet un détourage (matting) fin de qualité commerciale sans fonds verts, studios ou éclairage professionnel.

Le grand bond en avant : de MatAnyone à MatAnyone 2

MatAnyone (CVPR 2025) excellait déjà dans le détourage vidéo ciblé en utilisant la propagation de mémoire cohérente (Consistent Memory Propagation). MatAnyone 2 (CVPR 2026) l'améliore systématiquement pour résoudre des scénarios complexes du monde réel.

Évaluateur de qualité de détourage appris (MQE)

Un « inspecteur qualité » au niveau du pixel appris pendant la formation. Il fournit une supervision précise pour les zones de bordure et filtre automatiquement les échantillons du monde réel de haute qualité lors de la sélection des données. La qualité des détails des bordures a été améliorée de plus de 27 %.

Jeu de données massif du monde réel : VMReal

Contient 28 000 clips vidéo et 2,4 millions d'images, dépassant de loin les jeux de données synthétiques précédents. Cela augmente considérablement les capacités de généralisation du modèle dans des scénarios réels difficiles tels que le contre-jour, les arrière-plans encombrés et les mouvements rapides.

Stratégie de trames de référence à longue portée

Introduit des trames de référence distantes pour aider le modèle à se souvenir de l'apparence d'origine du sujet. Il évite les scintillements ou discontinuités courants lors d'occlusions soudaines ou de changements d'apparence importants dans de longues vidéos.

Réaction de la communauté : « Le fond vert est mort »

Depuis la mise en open source en mars 2026, les retours de la communauté ont été impressionnants :

Les cheveux, les plis des vêtements et les zones semi-transparentes montrent de véritables « bords bruts » plutôt que des contours de segmentation rigides.
Les longues vidéos de dizaines de secondes, voire de minutes, présentent une forte cohérence temporelle sans presque aucun scintillement visible.
Même les portraits à contre-jour et les scènes d'intérieur complexes tournés avec des téléphones portables donnent des canaux alpha de qualité professionnelle.

Comment expérimenter rapidement MatAnyone 2

Le moyen le plus simple : Démo en ligne

Visitez la démo officielle Hugging Face Gradio, téléchargez une vidéo et un masque approximatif de la première image (via SAM2, Grounding DINO, etc.), et voyez les résultats en quelques secondes ou minutes.

Launch Gradio Demo

Déploiement local

Pour les utilisateurs disposant de GPU, clonez le dépôt GitHub et exécutez l'inférence localement avec Python et PyTorch.

git clone https://github.com/pq-yang/MatAnyone2
cd MatAnyone2
pip install -r requirements.txt
python inference_matanyone2.py -i input.mp4

GitHub Repository

Plongée dans les détails techniques

MatAnyone 2 (CVPR 2026, arXiv: 2512.11782) passe de la dépendance à des jeux de données synthétiques massifs à des données à grande échelle du monde réel + une supervision de qualité apprise.

1. Fondation de l'architecture

Héritage du paradigme de propagation de la mémoire de son prédécesseur. Flux de travail de base : Encodeur -> Lecture de la mémoire -> Transformateur d'objet -> Décodeur -> Alpha Matte. Le module de fusion de mémoire adaptative aux régions permet une propagation sur mesure pour les régions centrales par rapport aux bordures.

2. Innovation de base : MQE

Un réseau léger qui évalue la qualité de l'alpha matte au niveau du pixel sans vérité terrain (ground truth). Il évalue à la fois la qualité sémantique et la qualité de la bordure. Il permet un « retour d'information en ligne » pour le calcul sélectif de la perte et une « conservation hors ligne » pour la construction du jeu de données VMReal.

3. Jeu de données : VMReal

Environ 28 000 clips / 2,4 millions d'images. Construit via un pipeline d'auto-annotation à double branche utilisant un modèle de Meilleure Vidéo (pour la stabilité temporelle) et un modèle de Meilleure Image (pour les détails des bordures), fusionnés ensemble en utilisant le MQE.

4. Stratégie de trames de référence

Résout l'oubli catastrophique dans les vidéos longues via une recherche de mémoire contextuelle à longue portée, améliorant considérablement la robustesse des vidéos longues sans ajouter de surcharge de mémoire d'inférence.

5. Perte et supervision

Combine une perte de détourage masquée (Masked Matting Loss, uniquement sur les pixels fiables marqués par le MQE) et une perte d'évaluation MQE pour fournir des conseils complets au niveau du pixel.

6. Faits saillants des performances

À la pointe de la technologie (SOTA) sur les benchmarks synthétiques et les ensembles de tests du monde réel. Les métriques de gradient et de connectivité sont nettement en avance, avec un scintillement quasi nul et une gestion impeccable des objets semi-transparents.

Résumé

MatAnyone 2 pousse le détourage vidéo à l'étape du « prêt à l'emploi ». Il réalise un saut qualitatif non seulement dans les métriques techniques, mais aussi dans la convivialité et la robustesse. La suppression d'arrière-plan n'est plus une contrainte de pré-production, mais une « magie » de post-production facilement disponible.

Project Page Read Paper