يُظهر Veo 3 قدرات ناشئة بدون تدريب عبر العديد من المهام البصرية، مما يشير إلى أن نماذج الفيديو في طريقها لتصبح نماذج أساسية للرؤية—تمامًا مثلما أصبحت نماذج اللغة الكبيرة نماذج أساسية للغة.
لقد دفعت القدرات الرائعة بدون تدريب لنماذج اللغة الكبيرة (LLMs) معالجة اللغة الطبيعية من نماذج خاصة بالمهام إلى نماذج أساسية موحدة وعامة. نشأ هذا التحول من بدائيات بسيطة: نماذج كبيرة وتوليدية مدربة على بيانات بمقياس الويب. من الغريب أن نفس البدائيات تنطبق على نماذج الفيديو التوليدية اليوم. هل يمكن أن تكون نماذج الفيديو على مسار نحو فهم الرؤية متعددة الأغراض، تمامًا كما طورت نماذج اللغة الكبيرة فهماً للغة متعدد الأغراض؟
يُظهر هذا البحث أن Veo 3 يمكنه حل بدون تدريب مجموعة واسعة من المهام التي لم يتم تدريبه عليها صراحةً: تقسيم الأشياء، واكتشاف الحواف، وتحرير الصور، وفهم الخصائص الفيزيائية، والتعرف على قدرات الأشياء، ومحاكاة استخدام الأدوات، وأكثر من ذلك بكثير. هذه القدرات على إدراك ونمذجة ومعالجة العالم البصري تمكّن أشكالاً مبكرة من الاستدلال البصري مثل حل المتاهات والتماثل. تشير قدرات Veo 3 الناشئة بدون تدريب إلى أن نماذج الفيديو في طريقها لتصبح نماذج أساسية للرؤية موحدة وعامة.
استمع إلى ملخص مُنشأ للورقة البحثية.
Edge detection
Segmentation
Keypoint localization
Super-resolution
Blind deblurring
Blind denoising
Low-light enhancement
Conjunctive search
Dalmatian illusion understanding
Shape cue-conflict understanding
Rorschach blot interpretation
Material properties (flammability)
Rigid body transform
Soft body transform
Gravity (earth)
Gravity (moon)
Buoyancy (bottle cap)
Buoyancy (rock)
Visual Jenga
Object packing
Material optics (glass)
Material optics (mirror)
Color mixing (additive)
Color mixing (subtractive)
Categorizing objects
Omniglot (recognition)
Omniglot (generation)
Omniglot (parsing)
Memory of world states
Background removal
Style transfer
Colorization
Inpainting
Outpainting
Text manipulation
Image editing with doodles
Scene composition
Novel view synthesis
3D-aware reposing
Transfiguration
Professional headshot
Dexterous manipulation (jar)
Dexterous manipulation (throw/catch)
Dexterous manipulation (baoding balls)
Affordance recognition
Drawing
Visual instruction
Graph traversal
Tree BFS
Sequence (dots)
Sequence (arrows)
Sequence (circles)
Sequence (squares)
Connecting colors
Shape fitting
Sorting numbers
Tool use
Simple sudoku completion
Water puzzle solving
Maze solving (mouse)
Robot navigation
Rule extrapolation
Analogy (color)
Analogy (resize)
Analogy (reflect)
Analogy (rotate)
Maze (5x5)
Maze (7x7)
Maze (9x9)
Maze (irregular)
Symmetry (shape)
Symmetry (random)
Monocular depth estimation
Monocular surface normal estimation
Force prompting
Motion trajectory prompting
Tying the knot
Connect the path puzzle
Letter word search
Eulerian path
Solving linear equations
Spot the difference
Visual IQ test
Glass falling
Collisions
Jigsaw puzzle
Sliding puzzle
Scrambled puzzle
Bottleneck
Laundry folding
Motion planning