Videomodelle sind Zero-Shot-Lerner und -Schlussfolgerer

Google Google DeepMind

Zusammenfassung

Veo 3 zeigt aufkommende Zero-Shot-Fähigkeiten über viele visuelle Aufgaben hinweg und deutet darauf hin, dass Videomodelle auf dem Weg sind, Vision-Foundation-Modelle zu werden—genau wie LLMs zu Foundation-Modellen für Sprache wurden.

Wahrnehmung

Modellierung

Manipulation

Schlussfolgerung

Zusammenfassung

Die bemerkenswerten Zero-Shot-Fähigkeiten großer Sprachmodelle (LLMs) haben die Verarbeitung natürlicher Sprache von aufgabenspezifischen Modellen zu einheitlichen, generalistischen Foundation-Modellen vorangetrieben. Diese Transformation entstand aus einfachen Primitiven: große, generative Modelle, die auf webweiten Daten trainiert wurden. Interessanterweise gelten dieselben Primitive für die heutigen generativen Videomodelle. Könnten Videomodelle auf einem Weg zu allgemeinem Sehverständnis sein, ähnlich wie LLMs allgemeines Sprachverständnis entwickelt haben?

Diese Forschung zeigt, dass Veo 3 eine breite Palette von Aufgaben Zero-Shot lösen kann, für die es nicht explizit trainiert wurde: Objekte segmentieren, Kanten erkennen, Bilder bearbeiten, physikalische Eigenschaften verstehen, Objekt-Affordanzen erkennen, Werkzeuggebrauch simulieren und vieles mehr. Diese Fähigkeiten, die visuelle Welt wahrzunehmen, zu modellieren und zu manipulieren, ermöglichen frühe Formen visueller Schlussfolgerung wie Labyrinth- und Symmetrielösung. Die aufkommenden Zero-Shot-Fähigkeiten von Veo 3 deuten darauf hin, dass Videomodelle auf dem Weg sind, einheitliche, generalistische Vision-Foundation-Modelle zu werden.

Podcast-Übersicht

Hören Sie eine generierte Zusammenfassung des Forschungspapiers.

Wahrnehmung

Edge detection

Segmentation

Keypoint localization

Super-resolution

Blind deblurring

Blind denoising

Low-light enhancement

Conjunctive search

Dalmatian illusion understanding

Shape cue-conflict understanding

Rorschach blot interpretation

Modellierung

Material properties (flammability)

Rigid body transform

Soft body transform

Gravity (earth)

Gravity (moon)

Buoyancy (bottle cap)

Buoyancy (rock)

Visual Jenga

Object packing

Material optics (glass)

Material optics (mirror)

Color mixing (additive)

Color mixing (subtractive)

Categorizing objects

Omniglot (recognition)

Omniglot (generation)

Omniglot (parsing)

Memory of world states

Manipulation

Background removal

Style transfer

Colorization

Inpainting

Outpainting

Text manipulation

Image editing with doodles

Scene composition

Novel view synthesis

3D-aware reposing

Transfiguration

Professional headshot

Dexterous manipulation (jar)

Dexterous manipulation (throw/catch)

Dexterous manipulation (baoding balls)

Affordance recognition

Drawing

Visual instruction

Schlussfolgerung

Graph traversal

Tree BFS

Sequence (dots)

Sequence (arrows)

Sequence (circles)

Sequence (squares)

Connecting colors

Shape fitting

Sorting numbers

Tool use

Simple sudoku completion

Water puzzle solving

Maze solving (mouse)

Robot navigation

Rule extrapolation

Analogy (color)

Analogy (resize)

Analogy (reflect)

Analogy (rotate)

Maze (5x5)

Maze (7x7)

Maze (9x9)

Maze (irregular)

Symmetry (shape)

Symmetry (random)