Veo 3は多くの視覚タスクでゼロショット能力を示し、ビデオモデルがビジョン基盤モデルになる道を歩んでいることを示しています。これは大規模言語モデルが言語の基盤モデルになったのと同様です。
大規模言語モデル(LLM)の驚くべきゼロショット能力は、自然言語処理をタスク固有のモデルから統一された汎用基盤モデルへと推進しました。この変革は、シンプルな原始的要素から生まれました:ウェブスケールのデータで訓練された大規模な生成モデルです。興味深いことに、同じ原始的要素が今日の生成ビデオモデルにも当てはまります。ビデオモデルは、LLMが汎用言語理解を開発したように、汎用ビジョン理解に向かう軌道にあるのでしょうか?
この研究は、Veo 3が明示的に訓練されていない幅広いタスクをゼロショットで解決できることを示しています:オブジェクトのセグメント化、エッジ検出、画像編集、物理的特性の理解、オブジェクトのアフォーダンスの認識、ツール使用のシミュレーションなど。視覚世界を知覚し、モデル化し、操作するこれらの能力により、迷路や対称性の解決などの初期形態の視覚的推論が可能になります。Veo 3の新興ゼロショット能力は、ビデオモデルが統一された汎用ビジョン基盤モデルになる道を歩んでいることを示しています。
研究論文の生成された要約を聞く。
Edge detection
Segmentation
Keypoint localization
Super-resolution
Blind deblurring
Blind denoising
Low-light enhancement
Conjunctive search
Dalmatian illusion understanding
Shape cue-conflict understanding
Rorschach blot interpretation
Material properties (flammability)
Rigid body transform
Soft body transform
Gravity (earth)
Gravity (moon)
Buoyancy (bottle cap)
Buoyancy (rock)
Visual Jenga
Object packing
Material optics (glass)
Material optics (mirror)
Color mixing (additive)
Color mixing (subtractive)
Categorizing objects
Omniglot (recognition)
Omniglot (generation)
Omniglot (parsing)
Memory of world states
Background removal
Style transfer
Colorization
Inpainting
Outpainting
Text manipulation
Image editing with doodles
Scene composition
Novel view synthesis
3D-aware reposing
Transfiguration
Professional headshot
Dexterous manipulation (jar)
Dexterous manipulation (throw/catch)
Dexterous manipulation (baoding balls)
Affordance recognition
Drawing
Visual instruction
Graph traversal
Tree BFS
Sequence (dots)
Sequence (arrows)
Sequence (circles)
Sequence (squares)
Connecting colors
Shape fitting
Sorting numbers
Tool use
Simple sudoku completion
Water puzzle solving
Maze solving (mouse)
Robot navigation
Rule extrapolation
Analogy (color)
Analogy (resize)
Analogy (reflect)
Analogy (rotate)
Maze (5x5)
Maze (7x7)
Maze (9x9)
Maze (irregular)
Symmetry (shape)
Symmetry (random)
Monocular depth estimation
Monocular surface normal estimation
Force prompting
Motion trajectory prompting
Tying the knot
Connect the path puzzle
Letter word search
Eulerian path
Solving linear equations
Spot the difference
Visual IQ test
Glass falling
Collisions
Jigsaw puzzle
Sliding puzzle
Scrambled puzzle
Bottleneck
Laundry folding
Motion planning