वीडियो मॉडल जीरो-शॉट लर्नर और रीज़नर हैं

Google Google DeepMind

संक्षेप में

Veo 3 कई विज़ुअल कार्यों में जीरो-शॉट क्षमताएं दिखाता है, जो दर्शाता है कि वीडियो मॉडल विज़न फाउंडेशन मॉडल बनने के रास्ते पर हैं—बिल्कुल वैसे ही जैसे LLM भाषा के लिए फाउंडेशन मॉडल बन गए।

धारणा

मॉडलिंग

हेरफेर

तर्क

सार

बड़े भाषा मॉडल (LLM) की उल्लेखनीय जीरो-शॉट क्षमताओं ने प्राकृतिक भाषा प्रसंस्करण को कार्य-विशिष्ट मॉडल से एकीकृत, सामान्यवादी फाउंडेशन मॉडल की ओर प्रेरित किया है। यह परिवर्तन सरल आदिम तत्वों से उभरा: वेब-स्केल डेटा पर प्रशिक्षित बड़े, जनरेटिव मॉडल। दिलचस्प बात यह है कि वही आदिम तत्व आज के जनरेटिव वीडियो मॉडल पर लागू होते हैं। क्या वीडियो मॉडल सामान्य-उद्देश्य विज़न समझ की दिशा में एक प्रक्षेपवक्र पर हैं, बिल्कुल उसी तरह जैसे LLM ने सामान्य-उद्देश्य भाषा समझ विकसित की?

यह शोध दर्शाता है कि Veo 3 जीरो-शॉट कई प्रकार के कार्यों को हल कर सकता है जिसके लिए इसे स्पष्ट रूप से प्रशिक्षित नहीं किया गया था: वस्तुओं को विभाजित करना, किनारों का पता लगाना, छवियों को संपादित करना, भौतिक गुणों को समझना, वस्तु अफोर्डेंस को पहचानना, उपकरण उपयोग का अनुकरण करना, और बहुत कुछ। विज़ुअल दुनिया को समझने, मॉडल बनाने और हेरफेर करने की ये क्षमताएं भूलभुलैया और समरूपता समाधान जैसे विज़ुअल रीज़निंग के प्रारंभिक रूपों को सक्षम करती हैं। Veo 3 की उभरती जीरो-शॉट क्षमताएं संकेत देती हैं कि वीडियो मॉडल एकीकृत, सामान्यवादी विज़न फाउंडेशन मॉडल बनने के रास्ते पर हैं।

पॉडकास्ट अवलोकन

शोध पत्र का एक जनरेट किया गया सारांश सुनें।

धारणा

Edge detection

Segmentation

Keypoint localization

Super-resolution

Blind deblurring

Blind denoising

Low-light enhancement

Conjunctive search

Dalmatian illusion understanding

Shape cue-conflict understanding

Rorschach blot interpretation

मॉडलिंग

Material properties (flammability)

Rigid body transform

Soft body transform

Gravity (earth)

Gravity (moon)

Buoyancy (bottle cap)

Buoyancy (rock)

Visual Jenga

Object packing

Material optics (glass)

Material optics (mirror)

Color mixing (additive)

Color mixing (subtractive)

Categorizing objects

Omniglot (recognition)

Omniglot (generation)

Omniglot (parsing)

Memory of world states

हेरफेर

Background removal

Style transfer

Colorization

Inpainting

Outpainting

Text manipulation

Image editing with doodles

Scene composition

Novel view synthesis

3D-aware reposing

Transfiguration

Professional headshot

Dexterous manipulation (jar)

Dexterous manipulation (throw/catch)

Dexterous manipulation (baoding balls)

Affordance recognition

Drawing

Visual instruction

तर्क

Graph traversal

Tree BFS

Sequence (dots)

Sequence (arrows)

Sequence (circles)

Sequence (squares)

Connecting colors

Shape fitting

Sorting numbers

Tool use

Simple sudoku completion

Water puzzle solving

Maze solving (mouse)

Robot navigation

Rule extrapolation

Analogy (color)

Analogy (resize)

Analogy (reflect)

Analogy (rotate)

Maze (5x5)

Maze (7x7)

Maze (9x9)

Maze (irregular)

Symmetry (shape)

Symmetry (random)