O Veo 3 mostra capacidades zero-shot emergentes em muitas tarefas visuais, indicando que os modelos de vídeo estão no caminho para se tornarem modelos de fundação de visão—assim como os LLMs se tornaram modelos de fundação para linguagem.
As notáveis capacidades zero-shot dos Modelos de Linguagem Grandes (LLMs) impulsionaram o processamento de linguagem natural de modelos específicos de tarefas para modelos de fundação unificados e generalistas. Esta transformação emergiu de primitivas simples: modelos grandes e generativos treinados em dados de escala web. Curiosamente, as mesmas primitivas se aplicam aos modelos de vídeo generativos de hoje. Os modelos de vídeo podem estar em uma trajetória em direção à compreensão de visão de propósito geral, assim como os LLMs desenvolveram compreensão de linguagem de propósito geral?
Esta pesquisa demonstra que o Veo 3 pode resolver zero-shot uma ampla variedade de tarefas para as quais não foi explicitamente treinado: segmentar objetos, detectar bordas, editar imagens, compreender propriedades físicas, reconhecer affordances de objetos, simular uso de ferramentas e muito mais. Essas habilidades de perceber, modelar e manipular o mundo visual permitem formas iniciais de raciocínio visual como resolução de labirintos e simetria. As capacidades zero-shot emergentes do Veo 3 indicam que os modelos de vídeo estão no caminho para se tornarem modelos de fundação de visão unificados e generalistas.
Ouça um resumo gerado do artigo de pesquisa.
Edge detection
Segmentation
Keypoint localization
Super-resolution
Blind deblurring
Blind denoising
Low-light enhancement
Conjunctive search
Dalmatian illusion understanding
Shape cue-conflict understanding
Rorschach blot interpretation
Material properties (flammability)
Rigid body transform
Soft body transform
Gravity (earth)
Gravity (moon)
Buoyancy (bottle cap)
Buoyancy (rock)
Visual Jenga
Object packing
Material optics (glass)
Material optics (mirror)
Color mixing (additive)
Color mixing (subtractive)
Categorizing objects
Omniglot (recognition)
Omniglot (generation)
Omniglot (parsing)
Memory of world states
Background removal
Style transfer
Colorization
Inpainting
Outpainting
Text manipulation
Image editing with doodles
Scene composition
Novel view synthesis
3D-aware reposing
Transfiguration
Professional headshot
Dexterous manipulation (jar)
Dexterous manipulation (throw/catch)
Dexterous manipulation (baoding balls)
Affordance recognition
Drawing
Visual instruction
Graph traversal
Tree BFS
Sequence (dots)
Sequence (arrows)
Sequence (circles)
Sequence (squares)
Connecting colors
Shape fitting
Sorting numbers
Tool use
Simple sudoku completion
Water puzzle solving
Maze solving (mouse)
Robot navigation
Rule extrapolation
Analogy (color)
Analogy (resize)
Analogy (reflect)
Analogy (rotate)
Maze (5x5)
Maze (7x7)
Maze (9x9)
Maze (irregular)
Symmetry (shape)
Symmetry (random)
Monocular depth estimation
Monocular surface normal estimation
Force prompting
Motion trajectory prompting
Tying the knot
Connect the path puzzle
Letter word search
Eulerian path
Solving linear equations
Spot the difference
Visual IQ test
Glass falling
Collisions
Jigsaw puzzle
Sliding puzzle
Scrambled puzzle
Bottleneck
Laundry folding
Motion planning