Modelos de vídeo são aprendizes e raciocinadores zero-shot

Google Google DeepMind

Resumo

O Veo 3 mostra capacidades zero-shot emergentes em muitas tarefas visuais, indicando que os modelos de vídeo estão no caminho para se tornarem modelos de fundação de visão—assim como os LLMs se tornaram modelos de fundação para linguagem.

Percepção

Modelagem

Manipulação

Raciocínio

Resumo

As notáveis capacidades zero-shot dos Modelos de Linguagem Grandes (LLMs) impulsionaram o processamento de linguagem natural de modelos específicos de tarefas para modelos de fundação unificados e generalistas. Esta transformação emergiu de primitivas simples: modelos grandes e generativos treinados em dados de escala web. Curiosamente, as mesmas primitivas se aplicam aos modelos de vídeo generativos de hoje. Os modelos de vídeo podem estar em uma trajetória em direção à compreensão de visão de propósito geral, assim como os LLMs desenvolveram compreensão de linguagem de propósito geral?

Esta pesquisa demonstra que o Veo 3 pode resolver zero-shot uma ampla variedade de tarefas para as quais não foi explicitamente treinado: segmentar objetos, detectar bordas, editar imagens, compreender propriedades físicas, reconhecer affordances de objetos, simular uso de ferramentas e muito mais. Essas habilidades de perceber, modelar e manipular o mundo visual permitem formas iniciais de raciocínio visual como resolução de labirintos e simetria. As capacidades zero-shot emergentes do Veo 3 indicam que os modelos de vídeo estão no caminho para se tornarem modelos de fundação de visão unificados e generalistas.

Visão geral do Podcast

Ouça um resumo gerado do artigo de pesquisa.

Percepção

Edge detection

Segmentation

Keypoint localization

Super-resolution

Blind deblurring

Blind denoising

Low-light enhancement

Conjunctive search

Dalmatian illusion understanding

Shape cue-conflict understanding

Rorschach blot interpretation

Modelagem

Material properties (flammability)

Rigid body transform

Soft body transform

Gravity (earth)

Gravity (moon)

Buoyancy (bottle cap)

Buoyancy (rock)

Visual Jenga

Object packing

Material optics (glass)

Material optics (mirror)

Color mixing (additive)

Color mixing (subtractive)

Categorizing objects

Omniglot (recognition)

Omniglot (generation)

Omniglot (parsing)

Memory of world states

Manipulação

Background removal

Style transfer

Colorization

Inpainting

Outpainting

Text manipulation

Image editing with doodles

Scene composition

Novel view synthesis

3D-aware reposing

Transfiguration

Professional headshot

Dexterous manipulation (jar)

Dexterous manipulation (throw/catch)

Dexterous manipulation (baoding balls)

Affordance recognition

Drawing

Visual instruction

Raciocínio

Graph traversal

Tree BFS

Sequence (dots)

Sequence (arrows)

Sequence (circles)

Sequence (squares)

Connecting colors

Shape fitting

Sorting numbers

Tool use

Simple sudoku completion

Water puzzle solving

Maze solving (mouse)

Robot navigation

Rule extrapolation

Analogy (color)

Analogy (resize)

Analogy (reflect)

Analogy (rotate)

Maze (5x5)

Maze (7x7)

Maze (9x9)

Maze (irregular)

Symmetry (shape)

Symmetry (random)