نماذج الفيديو هي متعلمون ومستنتجون بدون تدريب

Google Google DeepMind

الملخص

يُظهر Veo 3 قدرات ناشئة بدون تدريب عبر العديد من المهام البصرية، مما يشير إلى أن نماذج الفيديو في طريقها لتصبح نماذج أساسية للرؤية—تمامًا مثلما أصبحت نماذج اللغة الكبيرة نماذج أساسية للغة.

الإدراك

النمذجة

المعالجة

الاستدلال

الملخص

لقد دفعت القدرات الرائعة بدون تدريب لنماذج اللغة الكبيرة (LLMs) معالجة اللغة الطبيعية من نماذج خاصة بالمهام إلى نماذج أساسية موحدة وعامة. نشأ هذا التحول من بدائيات بسيطة: نماذج كبيرة وتوليدية مدربة على بيانات بمقياس الويب. من الغريب أن نفس البدائيات تنطبق على نماذج الفيديو التوليدية اليوم. هل يمكن أن تكون نماذج الفيديو على مسار نحو فهم الرؤية متعددة الأغراض، تمامًا كما طورت نماذج اللغة الكبيرة فهماً للغة متعدد الأغراض؟

يُظهر هذا البحث أن Veo 3 يمكنه حل بدون تدريب مجموعة واسعة من المهام التي لم يتم تدريبه عليها صراحةً: تقسيم الأشياء، واكتشاف الحواف، وتحرير الصور، وفهم الخصائص الفيزيائية، والتعرف على قدرات الأشياء، ومحاكاة استخدام الأدوات، وأكثر من ذلك بكثير. هذه القدرات على إدراك ونمذجة ومعالجة العالم البصري تمكّن أشكالاً مبكرة من الاستدلال البصري مثل حل المتاهات والتماثل. تشير قدرات Veo 3 الناشئة بدون تدريب إلى أن نماذج الفيديو في طريقها لتصبح نماذج أساسية للرؤية موحدة وعامة.

نظرة عامة على البودكاست

استمع إلى ملخص مُنشأ للورقة البحثية.

الإدراك

Edge detection

Segmentation

Keypoint localization

Super-resolution

Blind deblurring

Blind denoising

Low-light enhancement

Conjunctive search

Dalmatian illusion understanding

Shape cue-conflict understanding

Rorschach blot interpretation

النمذجة

Material properties (flammability)

Rigid body transform

Soft body transform

Gravity (earth)

Gravity (moon)

Buoyancy (bottle cap)

Buoyancy (rock)

Visual Jenga

Object packing

Material optics (glass)

Material optics (mirror)

Color mixing (additive)

Color mixing (subtractive)

Categorizing objects

Omniglot (recognition)

Omniglot (generation)

Omniglot (parsing)

Memory of world states

المعالجة

Background removal

Style transfer

Colorization

Inpainting

Outpainting

Text manipulation

Image editing with doodles

Scene composition

Novel view synthesis

3D-aware reposing

Transfiguration

Professional headshot

Dexterous manipulation (jar)

Dexterous manipulation (throw/catch)

Dexterous manipulation (baoding balls)

Affordance recognition

Drawing

Visual instruction

الاستدلال

Graph traversal

Tree BFS

Sequence (dots)

Sequence (arrows)

Sequence (circles)

Sequence (squares)

Connecting colors

Shape fitting

Sorting numbers

Tool use

Simple sudoku completion

Water puzzle solving

Maze solving (mouse)

Robot navigation

Rule extrapolation

Analogy (color)

Analogy (resize)

Analogy (reflect)

Analogy (rotate)

Maze (5x5)

Maze (7x7)

Maze (9x9)

Maze (irregular)

Symmetry (shape)

Symmetry (random)