ビデオモデルはゼロショット学習者および推論者

Google Google DeepMind

要約

Veo 3は多くの視覚タスクでゼロショット能力を示し、ビデオモデルがビジョン基盤モデルになる道を歩んでいることを示しています。これは大規模言語モデルが言語の基盤モデルになったのと同様です。

知覚

モデリング

操作

推論

概要

大規模言語モデル(LLM)の驚くべきゼロショット能力は、自然言語処理をタスク固有のモデルから統一された汎用基盤モデルへと推進しました。この変革は、シンプルな原始的要素から生まれました:ウェブスケールのデータで訓練された大規模な生成モデルです。興味深いことに、同じ原始的要素が今日の生成ビデオモデルにも当てはまります。ビデオモデルは、LLMが汎用言語理解を開発したように、汎用ビジョン理解に向かう軌道にあるのでしょうか?

この研究は、Veo 3が明示的に訓練されていない幅広いタスクをゼロショットで解決できることを示しています:オブジェクトのセグメント化、エッジ検出、画像編集、物理的特性の理解、オブジェクトのアフォーダンスの認識、ツール使用のシミュレーションなど。視覚世界を知覚し、モデル化し、操作するこれらの能力により、迷路や対称性の解決などの初期形態の視覚的推論が可能になります。Veo 3の新興ゼロショット能力は、ビデオモデルが統一された汎用ビジョン基盤モデルになる道を歩んでいることを示しています。

ポッドキャスト概要

研究論文の生成された要約を聞く。

知覚

Edge detection

Segmentation

Keypoint localization

Super-resolution

Blind deblurring

Blind denoising

Low-light enhancement

Conjunctive search

Dalmatian illusion understanding

Shape cue-conflict understanding

Rorschach blot interpretation

モデリング

Material properties (flammability)

Rigid body transform

Soft body transform

Gravity (earth)

Gravity (moon)

Buoyancy (bottle cap)

Buoyancy (rock)

Visual Jenga

Object packing

Material optics (glass)

Material optics (mirror)

Color mixing (additive)

Color mixing (subtractive)

Categorizing objects

Omniglot (recognition)

Omniglot (generation)

Omniglot (parsing)

Memory of world states

操作

Background removal

Style transfer

Colorization

Inpainting

Outpainting

Text manipulation

Image editing with doodles

Scene composition

Novel view synthesis

3D-aware reposing

Transfiguration

Professional headshot

Dexterous manipulation (jar)

Dexterous manipulation (throw/catch)

Dexterous manipulation (baoding balls)

Affordance recognition

Drawing

Visual instruction

推論

Graph traversal

Tree BFS

Sequence (dots)

Sequence (arrows)

Sequence (circles)

Sequence (squares)

Connecting colors

Shape fitting

Sorting numbers

Tool use

Simple sudoku completion

Water puzzle solving

Maze solving (mouse)

Robot navigation

Rule extrapolation

Analogy (color)

Analogy (resize)

Analogy (reflect)

Analogy (rotate)

Maze (5x5)

Maze (7x7)

Maze (9x9)

Maze (irregular)

Symmetry (shape)

Symmetry (random)