वीडियो मॉडल जीरो-शॉट लर्नर और रीज़नर हैं

Google Google DeepMind

संक्षेप में

Veo 3 कई विज़ुअल कार्यों में जीरो-शॉट क्षमताएं दिखाता है, जो दर्शाता है कि वीडियो मॉडल विज़न फाउंडेशन मॉडल बनने के रास्ते पर हैं—बिल्कुल वैसे ही जैसे LLM भाषा के लिए फाउंडेशन मॉडल बन गए।

धारणा

मॉडलिंग

हेरफेर

तर्क

सार

बड़े भाषा मॉडल (LLM) की उल्लेखनीय जीरो-शॉट क्षमताओं ने प्राकृतिक भाषा प्रसंस्करण को कार्य-विशिष्ट मॉडल से एकीकृत, सामान्यवादी फाउंडेशन मॉडल की ओर प्रेरित किया है। यह परिवर्तन सरल आदिम तत्वों से उभरा: वेब-स्केल डेटा पर प्रशिक्षित बड़े, जनरेटिव मॉडल। दिलचस्प बात यह है कि वही आदिम तत्व आज के जनरेटिव वीडियो मॉडल पर लागू होते हैं। क्या वीडियो मॉडल सामान्य-उद्देश्य विज़न समझ की दिशा में एक प्रक्षेपवक्र पर हैं, बिल्कुल उसी तरह जैसे LLM ने सामान्य-उद्देश्य भाषा समझ विकसित की?

यह शोध दर्शाता है कि Veo 3 जीरो-शॉट कई प्रकार के कार्यों को हल कर सकता है जिसके लिए इसे स्पष्ट रूप से प्रशिक्षित नहीं किया गया था: वस्तुओं को विभाजित करना, किनारों का पता लगाना, छवियों को संपादित करना, भौतिक गुणों को समझना, वस्तु अफोर्डेंस को पहचानना, उपकरण उपयोग का अनुकरण करना, और बहुत कुछ। विज़ुअल दुनिया को समझने, मॉडल बनाने और हेरफेर करने की ये क्षमताएं भूलभुलैया और समरूपता समाधान जैसे विज़ुअल रीज़निंग के प्रारंभिक रूपों को सक्षम करती हैं। Veo 3 की उभरती जीरो-शॉट क्षमताएं संकेत देती हैं कि वीडियो मॉडल एकीकृत, सामान्यवादी विज़न फाउंडेशन मॉडल बनने के रास्ते पर हैं।