Veo 3는 다양한 시각 작업에서 제로샷 능력을 보여주며, 비디오 모델이 비전 기반 모델이 되는 길을 걷고 있음을 나타냅니다. 이는 대형 언어 모델이 언어 기반 모델이 된 것과 같습니다.
대형 언어 모델(LLM)의 놀라운 제로샷 능력은 자연어 처리를 작업별 모델에서 통합된 범용 기반 모델로 발전시켰습니다. 이러한 변화는 간단한 기본 요소에서 비롯되었습니다: 웹 규모 데이터로 훈련된 대형 생성 모델입니다. 흥미롭게도 동일한 기본 요소가 오늘날의 생성 비디오 모델에도 적용됩니다. 비디오 모델이 LLM이 범용 언어 이해를 개발한 것처럼 범용 비전 이해를 향한 궤도에 있을까요?
이 연구는 Veo 3가 명시적으로 훈련받지 않은 광범위한 작업을 제로샷으로 해결할 수 있음을 보여줍니다: 객체 분할, 엣지 감지, 이미지 편집, 물리적 속성 이해, 객체 어포던스 인식, 도구 사용 시뮬레이션 등. 시각 세계를 인식하고 모델링하며 조작하는 이러한 능력은 미로 및 대칭 해결과 같은 초기 형태의 시각적 추론을 가능하게 합니다. Veo 3의 새로운 제로샷 능력은 비디오 모델이 통합된 범용 비전 기반 모델이 되는 길을 걷고 있음을 나타냅니다.
연구 논문의 생성된 요약을 들어보세요.
Edge detection
Segmentation
Keypoint localization
Super-resolution
Blind deblurring
Blind denoising
Low-light enhancement
Conjunctive search
Dalmatian illusion understanding
Shape cue-conflict understanding
Rorschach blot interpretation
Material properties (flammability)
Rigid body transform
Soft body transform
Gravity (earth)
Gravity (moon)
Buoyancy (bottle cap)
Buoyancy (rock)
Visual Jenga
Object packing
Material optics (glass)
Material optics (mirror)
Color mixing (additive)
Color mixing (subtractive)
Categorizing objects
Omniglot (recognition)
Omniglot (generation)
Omniglot (parsing)
Memory of world states
Background removal
Style transfer
Colorization
Inpainting
Outpainting
Text manipulation
Image editing with doodles
Scene composition
Novel view synthesis
3D-aware reposing
Transfiguration
Professional headshot
Dexterous manipulation (jar)
Dexterous manipulation (throw/catch)
Dexterous manipulation (baoding balls)
Affordance recognition
Drawing
Visual instruction
Graph traversal
Tree BFS
Sequence (dots)
Sequence (arrows)
Sequence (circles)
Sequence (squares)
Connecting colors
Shape fitting
Sorting numbers
Tool use
Simple sudoku completion
Water puzzle solving
Maze solving (mouse)
Robot navigation
Rule extrapolation
Analogy (color)
Analogy (resize)
Analogy (reflect)
Analogy (rotate)
Maze (5x5)
Maze (7x7)
Maze (9x9)
Maze (irregular)
Symmetry (shape)
Symmetry (random)
Monocular depth estimation
Monocular surface normal estimation
Force prompting
Motion trajectory prompting
Tying the knot
Connect the path puzzle
Letter word search
Eulerian path
Solving linear equations
Spot the difference
Visual IQ test
Glass falling
Collisions
Jigsaw puzzle
Sliding puzzle
Scrambled puzzle
Bottleneck
Laundry folding
Motion planning