Les modèles vidéo sont des apprenants et raisonneurs zero-shot

Google Google DeepMind

Résumé

Veo 3 montre des capacités zero-shot émergentes dans de nombreuses tâches visuelles, indiquant que les modèles vidéo sont en voie de devenir des modèles de fondation de vision—tout comme les LLM sont devenus des modèles de fondation pour le langage.

Perception

Modélisation

Manipulation

Raisonnement

Résumé

Les remarquables capacités zero-shot des grands modèles de langage (LLM) ont propulsé le traitement du langage naturel des modèles spécifiques à une tâche vers des modèles de fondation unifiés et généralistes. Cette transformation est née de primitives simples : de grands modèles génératifs entraînés sur des données à l'échelle du web. Curieusement, les mêmes primitives s'appliquent aux modèles vidéo génératifs d'aujourd'hui. Les modèles vidéo pourraient-ils être sur une trajectoire vers la compréhension de la vision à usage général, tout comme les LLM ont développé une compréhension du langage à usage général ?

Cette recherche démontre que Veo 3 peut résoudre en zero-shot une large variété de tâches pour lesquelles il n'a pas été explicitement entraîné : segmenter des objets, détecter des bords, éditer des images, comprendre des propriétés physiques, reconnaître des affordances d'objets, simuler l'utilisation d'outils, et bien plus encore. Ces capacités à percevoir, modéliser et manipuler le monde visuel permettent des formes précoces de raisonnement visuel comme la résolution de labyrinthes et de symétrie. Les capacités zero-shot émergentes de Veo 3 indiquent que les modèles vidéo sont en voie de devenir des modèles de fondation de vision unifiés et généralistes.

Aperçu du Podcast

Écoutez un résumé généré de l'article de recherche.

Perception

Edge detection

Segmentation

Keypoint localization

Super-resolution

Blind deblurring

Blind denoising

Low-light enhancement

Conjunctive search

Dalmatian illusion understanding

Shape cue-conflict understanding

Rorschach blot interpretation

Modélisation

Material properties (flammability)

Rigid body transform

Soft body transform

Gravity (earth)

Gravity (moon)

Buoyancy (bottle cap)

Buoyancy (rock)

Visual Jenga

Object packing

Material optics (glass)

Material optics (mirror)

Color mixing (additive)

Color mixing (subtractive)

Categorizing objects

Omniglot (recognition)

Omniglot (generation)

Omniglot (parsing)

Memory of world states

Manipulation

Background removal

Style transfer

Colorization

Inpainting

Outpainting

Text manipulation

Image editing with doodles

Scene composition

Novel view synthesis

3D-aware reposing

Transfiguration

Professional headshot

Dexterous manipulation (jar)

Dexterous manipulation (throw/catch)

Dexterous manipulation (baoding balls)

Affordance recognition

Drawing

Visual instruction

Raisonnement

Graph traversal

Tree BFS

Sequence (dots)

Sequence (arrows)

Sequence (circles)

Sequence (squares)

Connecting colors

Shape fitting

Sorting numbers

Tool use

Simple sudoku completion

Water puzzle solving

Maze solving (mouse)

Robot navigation

Rule extrapolation

Analogy (color)

Analogy (resize)

Analogy (reflect)

Analogy (rotate)

Maze (5x5)

Maze (7x7)

Maze (9x9)

Maze (irregular)

Symmetry (shape)

Symmetry (random)