Veo 3 muestra capacidades emergentes de zero-shot en muchas tareas visuales, indicando que los modelos de video están en camino de convertirse en modelos de fundación de visión, al igual que los LLMs se convirtieron en modelos de fundación para el lenguaje.
Las notables capacidades de zero-shot de los Modelos de Lenguaje Grandes (LLMs) han impulsado el procesamiento del lenguaje natural desde modelos específicos de tareas hacia modelos de fundación unificados y generalistas. Esta transformación surgió de primitivas simples: modelos grandes y generativos entrenados con datos a escala web. Curiosamente, las mismas primitivas se aplican a los modelos de video generativos de hoy. ¿Podrían los modelos de video estar en una trayectoria hacia la comprensión de visión de propósito general, al igual que los LLMs desarrollaron comprensión de lenguaje de propósito general?
Esta investigación demuestra que Veo 3 puede resolver de zero-shot una amplia variedad de tareas para las que no fue entrenado explícitamente: segmentar objetos, detectar bordes, editar imágenes, comprender propiedades físicas, reconocer affordances de objetos, simular uso de herramientas y mucho más. Estas habilidades para percibir, modelar y manipular el mundo visual permiten formas tempranas de razonamiento visual como la resolución de laberintos y simetría. Las capacidades emergentes de zero-shot de Veo 3 indican que los modelos de video están en camino de convertirse en modelos de fundación de visión unificados y generalistas.
Escuche un resumen generado del artículo de investigación.
Edge detection
Segmentation
Keypoint localization
Super-resolution
Blind deblurring
Blind denoising
Low-light enhancement
Conjunctive search
Dalmatian illusion understanding
Shape cue-conflict understanding
Rorschach blot interpretation
Material properties (flammability)
Rigid body transform
Soft body transform
Gravity (earth)
Gravity (moon)
Buoyancy (bottle cap)
Buoyancy (rock)
Visual Jenga
Object packing
Material optics (glass)
Material optics (mirror)
Color mixing (additive)
Color mixing (subtractive)
Categorizing objects
Omniglot (recognition)
Omniglot (generation)
Omniglot (parsing)
Memory of world states
Background removal
Style transfer
Colorization
Inpainting
Outpainting
Text manipulation
Image editing with doodles
Scene composition
Novel view synthesis
3D-aware reposing
Transfiguration
Professional headshot
Dexterous manipulation (jar)
Dexterous manipulation (throw/catch)
Dexterous manipulation (baoding balls)
Affordance recognition
Drawing
Visual instruction
Graph traversal
Tree BFS
Sequence (dots)
Sequence (arrows)
Sequence (circles)
Sequence (squares)
Connecting colors
Shape fitting
Sorting numbers
Tool use
Simple sudoku completion
Water puzzle solving
Maze solving (mouse)
Robot navigation
Rule extrapolation
Analogy (color)
Analogy (resize)
Analogy (reflect)
Analogy (rotate)
Maze (5x5)
Maze (7x7)
Maze (9x9)
Maze (irregular)
Symmetry (shape)
Symmetry (random)
Monocular depth estimation
Monocular surface normal estimation
Force prompting
Motion trajectory prompting
Tying the knot
Connect the path puzzle
Letter word search
Eulerian path
Solving linear equations
Spot the difference
Visual IQ test
Glass falling
Collisions
Jigsaw puzzle
Sliding puzzle
Scrambled puzzle
Bottleneck
Laundry folding
Motion planning