Veo 3 montre des capacités zero-shot émergentes dans de nombreuses tâches visuelles, indiquant que les modèles vidéo sont en voie de devenir des modèles de fondation de vision—tout comme les LLM sont devenus des modèles de fondation pour le langage.
Les remarquables capacités zero-shot des grands modèles de langage (LLM) ont propulsé le traitement du langage naturel des modèles spécifiques à une tâche vers des modèles de fondation unifiés et généralistes. Cette transformation est née de primitives simples : de grands modèles génératifs entraînés sur des données à l'échelle du web. Curieusement, les mêmes primitives s'appliquent aux modèles vidéo génératifs d'aujourd'hui. Les modèles vidéo pourraient-ils être sur une trajectoire vers la compréhension de la vision à usage général, tout comme les LLM ont développé une compréhension du langage à usage général ?
Cette recherche démontre que Veo 3 peut résoudre en zero-shot une large variété de tâches pour lesquelles il n'a pas été explicitement entraîné : segmenter des objets, détecter des bords, éditer des images, comprendre des propriétés physiques, reconnaître des affordances d'objets, simuler l'utilisation d'outils, et bien plus encore. Ces capacités à percevoir, modéliser et manipuler le monde visuel permettent des formes précoces de raisonnement visuel comme la résolution de labyrinthes et de symétrie. Les capacités zero-shot émergentes de Veo 3 indiquent que les modèles vidéo sont en voie de devenir des modèles de fondation de vision unifiés et généralistes.
Écoutez un résumé généré de l'article de recherche.
Edge detection
Segmentation
Keypoint localization
Super-resolution
Blind deblurring
Blind denoising
Low-light enhancement
Conjunctive search
Dalmatian illusion understanding
Shape cue-conflict understanding
Rorschach blot interpretation
Material properties (flammability)
Rigid body transform
Soft body transform
Gravity (earth)
Gravity (moon)
Buoyancy (bottle cap)
Buoyancy (rock)
Visual Jenga
Object packing
Material optics (glass)
Material optics (mirror)
Color mixing (additive)
Color mixing (subtractive)
Categorizing objects
Omniglot (recognition)
Omniglot (generation)
Omniglot (parsing)
Memory of world states
Background removal
Style transfer
Colorization
Inpainting
Outpainting
Text manipulation
Image editing with doodles
Scene composition
Novel view synthesis
3D-aware reposing
Transfiguration
Professional headshot
Dexterous manipulation (jar)
Dexterous manipulation (throw/catch)
Dexterous manipulation (baoding balls)
Affordance recognition
Drawing
Visual instruction
Graph traversal
Tree BFS
Sequence (dots)
Sequence (arrows)
Sequence (circles)
Sequence (squares)
Connecting colors
Shape fitting
Sorting numbers
Tool use
Simple sudoku completion
Water puzzle solving
Maze solving (mouse)
Robot navigation
Rule extrapolation
Analogy (color)
Analogy (resize)
Analogy (reflect)
Analogy (rotate)
Maze (5x5)
Maze (7x7)
Maze (9x9)
Maze (irregular)
Symmetry (shape)
Symmetry (random)
Monocular depth estimation
Monocular surface normal estimation
Force prompting
Motion trajectory prompting
Tying the knot
Connect the path puzzle
Letter word search
Eulerian path
Solving linear equations
Spot the difference
Visual IQ test
Glass falling
Collisions
Jigsaw puzzle
Sliding puzzle
Scrambled puzzle
Bottleneck
Laundry folding
Motion planning