비디오 모델은 제로샷 학습자이자 추론자

Google Google DeepMind

요약

Veo 3는 다양한 시각 작업에서 제로샷 능력을 보여주며, 비디오 모델이 비전 기반 모델이 되는 길을 걷고 있음을 나타냅니다. 이는 대형 언어 모델이 언어 기반 모델이 된 것과 같습니다.

인식

모델링

조작

추론

초록

대형 언어 모델(LLM)의 놀라운 제로샷 능력은 자연어 처리를 작업별 모델에서 통합된 범용 기반 모델로 발전시켰습니다. 이러한 변화는 간단한 기본 요소에서 비롯되었습니다: 웹 규모 데이터로 훈련된 대형 생성 모델입니다. 흥미롭게도 동일한 기본 요소가 오늘날의 생성 비디오 모델에도 적용됩니다. 비디오 모델이 LLM이 범용 언어 이해를 개발한 것처럼 범용 비전 이해를 향한 궤도에 있을까요?

이 연구는 Veo 3가 명시적으로 훈련받지 않은 광범위한 작업을 제로샷으로 해결할 수 있음을 보여줍니다: 객체 분할, 엣지 감지, 이미지 편집, 물리적 속성 이해, 객체 어포던스 인식, 도구 사용 시뮬레이션 등. 시각 세계를 인식하고 모델링하며 조작하는 이러한 능력은 미로 및 대칭 해결과 같은 초기 형태의 시각적 추론을 가능하게 합니다. Veo 3의 새로운 제로샷 능력은 비디오 모델이 통합된 범용 비전 기반 모델이 되는 길을 걷고 있음을 나타냅니다.

팟캐스트 개요

연구 논문의 생성된 요약을 들어보세요.

인식

Edge detection

Segmentation

Keypoint localization

Super-resolution

Blind deblurring

Blind denoising

Low-light enhancement

Conjunctive search

Dalmatian illusion understanding

Shape cue-conflict understanding

Rorschach blot interpretation

모델링

Material properties (flammability)

Rigid body transform

Soft body transform

Gravity (earth)

Gravity (moon)

Buoyancy (bottle cap)

Buoyancy (rock)

Visual Jenga

Object packing

Material optics (glass)

Material optics (mirror)

Color mixing (additive)

Color mixing (subtractive)

Categorizing objects

Omniglot (recognition)

Omniglot (generation)

Omniglot (parsing)

Memory of world states

조작

Background removal

Style transfer

Colorization

Inpainting

Outpainting

Text manipulation

Image editing with doodles

Scene composition

Novel view synthesis

3D-aware reposing

Transfiguration

Professional headshot

Dexterous manipulation (jar)

Dexterous manipulation (throw/catch)

Dexterous manipulation (baoding balls)

Affordance recognition

Drawing

Visual instruction

추론

Graph traversal

Tree BFS

Sequence (dots)

Sequence (arrows)

Sequence (circles)

Sequence (squares)

Connecting colors

Shape fitting

Sorting numbers

Tool use

Simple sudoku completion

Water puzzle solving

Maze solving (mouse)

Robot navigation

Rule extrapolation

Analogy (color)

Analogy (resize)

Analogy (reflect)

Analogy (rotate)

Maze (5x5)

Maze (7x7)

Maze (9x9)

Maze (irregular)

Symmetry (shape)

Symmetry (random)