Los modelos de video son aprendices y razonadores de zero-shot

Google Google DeepMind

Resumen

Veo 3 muestra capacidades emergentes de zero-shot en muchas tareas visuales, indicando que los modelos de video están en camino de convertirse en modelos de fundación de visión, al igual que los LLMs se convirtieron en modelos de fundación para el lenguaje.

Percepción

Modelado

Manipulación

Razonamiento

Resumen

Las notables capacidades de zero-shot de los Modelos de Lenguaje Grandes (LLMs) han impulsado el procesamiento del lenguaje natural desde modelos específicos de tareas hacia modelos de fundación unificados y generalistas. Esta transformación surgió de primitivas simples: modelos grandes y generativos entrenados con datos a escala web. Curiosamente, las mismas primitivas se aplican a los modelos de video generativos de hoy. ¿Podrían los modelos de video estar en una trayectoria hacia la comprensión de visión de propósito general, al igual que los LLMs desarrollaron comprensión de lenguaje de propósito general?

Esta investigación demuestra que Veo 3 puede resolver de zero-shot una amplia variedad de tareas para las que no fue entrenado explícitamente: segmentar objetos, detectar bordes, editar imágenes, comprender propiedades físicas, reconocer affordances de objetos, simular uso de herramientas y mucho más. Estas habilidades para percibir, modelar y manipular el mundo visual permiten formas tempranas de razonamiento visual como la resolución de laberintos y simetría. Las capacidades emergentes de zero-shot de Veo 3 indican que los modelos de video están en camino de convertirse en modelos de fundación de visión unificados y generalistas.

Resumen del Podcast

Escuche un resumen generado del artículo de investigación.

Percepción

Edge detection

Segmentation

Keypoint localization

Super-resolution

Blind deblurring

Blind denoising

Low-light enhancement

Conjunctive search

Dalmatian illusion understanding

Shape cue-conflict understanding

Rorschach blot interpretation

Modelado

Material properties (flammability)

Rigid body transform

Soft body transform

Gravity (earth)

Gravity (moon)

Buoyancy (bottle cap)

Buoyancy (rock)

Visual Jenga

Object packing

Material optics (glass)

Material optics (mirror)

Color mixing (additive)

Color mixing (subtractive)

Categorizing objects

Omniglot (recognition)

Omniglot (generation)

Omniglot (parsing)

Memory of world states

Manipulación

Background removal

Style transfer

Colorization

Inpainting

Outpainting

Text manipulation

Image editing with doodles

Scene composition

Novel view synthesis

3D-aware reposing

Transfiguration

Professional headshot

Dexterous manipulation (jar)

Dexterous manipulation (throw/catch)

Dexterous manipulation (baoding balls)

Affordance recognition

Drawing

Visual instruction

Razonamiento

Graph traversal

Tree BFS

Sequence (dots)

Sequence (arrows)

Sequence (circles)

Sequence (squares)

Connecting colors

Shape fitting

Sorting numbers

Tool use

Simple sudoku completion

Water puzzle solving

Maze solving (mouse)

Robot navigation

Rule extrapolation

Analogy (color)

Analogy (resize)

Analogy (reflect)

Analogy (rotate)

Maze (5x5)

Maze (7x7)

Maze (9x9)

Maze (irregular)

Symmetry (shape)

Symmetry (random)