डिफ्यूजन ट्रांसफार्मर और वान-वीएई पर आधारित एक ओपन-सोर्स एआई वीडियो जनरेशन मॉडल, वानशियांग 2.1 की शक्तिशाली विशेषताओं का अन्वेषण करें, जो T2V, I2V जैसे विभिन्न कार्यों का समर्थन करता है।
डिफ्यूजन ट्रांसफार्मर पर आधारित, नवीन वान-वीएई आर्किटेक्चर को एकीकृत करते हुए, T2V और I2V जैसे कई कार्यों का समर्थन करता है।
VBench जैसे आधिकारिक बेंचमार्क में उत्कृष्ट प्रदर्शन (समग्र स्कोर 84.7%+), विशेष रूप से जटिल गतिशीलता, स्थानिक संबंधों और बहु-वस्तु अंतःक्रियाओं को संभालने में कुशल।
हल्का 1.3B मॉडल केवल लगभग 8GB VRAM की आवश्यकता होती है, जो मुख्यधारा के उपभोक्ता GPU पर सुचारू रूप से चलता है, प्रवेश की बाधा को काफी कम करता है।
T2V/I2V तक सीमित नहीं, वीडियो संपादन, बहाली, विस्तार और ऑडियो जनरेशन (V2A) जैसी विविध रचनात्मक आवश्यकताओं का भी समर्थन करता है।
वीडियो के भीतर द्विभाषी (चीनी/अंग्रेजी) टेक्स्ट की स्पष्ट पीढ़ी का अग्रणी, विभिन्न फ़ॉन्ट प्रभावों का समर्थन करता है, अनुप्रयोग सीमाओं का बहुत विस्तार करता है।
नवीन 3D स्पेसियो-टेम्पोरल VAE एन्कोडिंग/डिकोडिंग दक्षता और गुणवत्ता में काफी सुधार करता है, उच्च-रिज़ॉल्यूशन लंबी वीडियो प्रसंस्करण का समर्थन करता है, गति और VRAM को संतुलित करता है।
अपाचे 2.0 लाइसेंस का पालन करता है, मॉडल कोड और वेट को पूरी तरह से खोलता है, समुदाय को सक्रिय रूप से गले लगाता है ताकि प्रौद्योगिकी और एप्लिकेशन परिनियोजन को संयुक्त रूप से आगे बढ़ाया जा सके।
बड़े शरीर की गतिविधियों, वस्तु घुमाव, दृश्य परिवर्तन और कैमरा आंदोलनों वाले यथार्थवादी वीडियो स्ट्रीम को सटीक रूप से उत्पन्न करें।
उदाहरण: एक बर्फीले परिदृश्य पर स्नोमोबिलर के तेजी से चलने और बर्फ उड़ाने के गतिशील शॉट का अनुकरण।
सहज वस्तु अंतःक्रियाओं और गतिशील प्रभावों को उत्पन्न करने के लिए वास्तविक दुनिया के भौतिक नियमों का सटीक अनुकरण करें।
उदाहरण: एक पांडा शहर की सड़कों पर कूदने, घूमने और पीसने सहित कठिन स्केटबोर्डिंग ट्रिक्स करता है, जिसमें उत्तम कौशल का प्रदर्शन करने वाले चिकने, प्राकृतिक मूवमेंट होते हैं।
समृद्ध बनावट, यथार्थवादी प्रकाश व्यवस्था और विविध शैलियों के साथ वीडियो फ्रेम उत्पन्न करके फिल्मों के बराबर दृश्य गुणवत्ता प्रदान करें।
उदाहरण: एक बदलते जासूस के चेहरे को कैप्चर करने वाला क्लोज-अप सिनेमाई शॉट।
वान-एडिट तकनीक पर आधारित, सामग्री फाइन-ट्यूनिंग के लिए विविध वीडियो संपादन कार्यों का समर्थन करता है।
उदाहरण: वीडियो की मुख्य संरचना को संरक्षित करते हुए पृष्ठभूमि को बदलना या तत्व जोड़ना।
वीडियो फ्रेम के भीतर सीधे स्पष्ट, गतिशील द्विभाषी (चीनी/अंग्रेजी) टेक्स्ट जेनरेट करने के लिए अभूतपूर्व समर्थन। विभिन्न फ़ॉन्ट और प्रभावों के साथ लागू।
प्रॉम्प्ट उदाहरण (स्याही कला): "एक लाल नए साल के कागज की पृष्ठभूमि पर, स्याही की एक बूंद धीरे-धीरे फैलती है, एक धुंधला, प्राकृतिक चरित्र "福" (फू - आशीर्वाद) बनाती है, जिसमें स्याही का रंग गहरे से हल्के रंग में फीका पड़ता है, जो पूर्वी सौंदर्यशास्त्र को दर्शाता है।"
उदाहरण: किसी उत्पाद डेमो वीडियो में डायनेमिक स्लोगन या एनोटेशन जोड़ना।
न केवल दृश्यों को उत्पन्न करता है बल्कि सामग्री और लय के अनुरूप ध्वनि प्रभाव और पृष्ठभूमि संगीत (V2A) का समझदारी से मिलान या उत्पन्न भी करता है।
प्रॉम्प्ट उदाहरण (बर्फ घन ड्रॉप): "क्लोज-अप शॉट, बर्फ के टुकड़े ऊंचाई से एक गिलास में गिरते हैं, जिससे टूटने की आवाज और तरल के छलकने की आवाज आती है..." (मिलान ध्वनि प्रभाव उत्पन्न करता है)
उदाहरण: एक एनिमेटेड लघु फिल्म के लिए कथानक और वातावरण के अनुरूप पृष्ठभूमि संगीत स्वचालित रूप से उत्पन्न करना।
वानशियांग 2.1 रैपिड वैलिडेशन से लेकर उच्च-गुणवत्ता निर्माण तक विभिन्न आवश्यकताओं को पूरा करने के लिए विभिन्न पैरामीटर स्केल और कार्यात्मकताओं के साथ मॉडल वेरिएंट प्रदान करता है, सभी अपाचे 2.0 लाइसेंस के तहत ओपन-सोर्स हैं।
1.3 बिलियन पैरामीटर्स
टेक्स्ट-टू-वीडियो (T2V), 480p रिज़ॉल्यूशन पर ध्यान केंद्रित करता है। कम VRAM आवश्यकताओं (लगभग 8GB) के साथ उपभोक्ता GPU के लिए अनुकूलित।
14 बिलियन पैरामीटर्स
टेक्स्ट-टू-वीडियो (T2V), उत्कृष्ट गुणवत्ता प्रदान करता है, 480p/720p रिज़ॉल्यूशन का समर्थन करता है, अद्वितीय द्विभाषी टेक्स्ट जनरेशन क्षमताओं के साथ।
14 बिलियन पैरामीटर्स
इमेज-टू-वीडियो (I2V), छवि संदर्भों और टेक्स्ट प्रॉम्प्ट को मिलाकर वीडियो उत्पन्न करता है, 480p और 720p उच्च-गुणवत्ता वाले वेरिएंट में उपलब्ध है।
14 बिलियन पैरामीटर्स
फर्स्ट&लास्ट-फ्रेम-टू-वीडियो (FLF2V), स्मूथ वीडियो उत्पन्न करने के लिए स्टार्ट और एंड फ्रेम के बीच ट्रांज़िशन को समझदारी से संश्लेषित करता है, मल्टी-जीपीयू एक्सेलेरेशन का समर्थन करता है।
🚀 अलीबाबा टोंगयी लैब ने पहला 14 बिलियन पैरामीटर फर्स्ट&लास्ट-फ्रेम-टू-वीडियो बड़ा मॉडल लॉन्च किया! पूरी तरह से ओपन सोर्स, डिजिटल कलाकारों को अभूतपूर्व रचनात्मक दक्षता और लचीलापन प्रदान करता है।
समृद्ध विवरण और यथार्थवादी भौतिकी के साथ सिनेमाई, उच्च-निष्ठा वाले वीडियो सामग्री उत्पन्न करें।
जटिल वस्तु आंदोलनों, कैमरा गतियों और प्राकृतिक गतिशील अंतःक्रियाओं को सटीक रूप से कैप्चर और उत्पन्न करें।
अद्वितीय इन-वीडियो द्विभाषी टेक्स्ट जनरेशन क्षमता सामग्री निर्माण में अधिक संभावनाएं जोड़ती है।
उन्नत वान-वीएई तकनीक तेज प्रसंस्करण गति और बेहतर संसाधन उपयोग दक्षता लाती है।
ओपन सोर्स उपभोक्ता हार्डवेयर समर्थन के साथ संयुक्त होकर सभी को अत्याधुनिक एआई वीडियो तकनीक का अनुभव करने की अनुमति देता है।
वैश्विक डेवलपर्स के योगदान, अनुकूलन और एकीकरण से लाभ उठाएं, निरंतर पारिस्थितिकी तंत्र के विकास को बढ़ावा दें।
वानशियांग 2.1 मुख्यधारा के डिफ्यूजन ट्रांसफार्मर (DiT) प्रतिमान पर आधारित है और कुशल वीडियो डेटा प्रसंस्करण के लिए अभिनव 3D स्पेसियो-टेम्पोरल वैरिएशनल ऑटोएन्कोडर (वान-वीएई) का परिचय देता है। यह फ्लो मैचिंग तकनीकों का भी उपयोग करता है और T5 एन्कोडर के माध्यम से टेक्स्ट प्रॉम्प्ट को समझता है, क्रॉस-अटेंशन मैकेनिज्म का उपयोग करके टेक्स्ट और विज़ुअल जानकारी को एकीकृत करता है।
हार्डवेयर आवश्यकताएँ मॉडल संस्करण पर निर्भर करती हैं। 1.3B T2V मॉडल बहुत उपभोक्ता GPU-अनुकूल है, जिसके लिए केवल लगभग 8GB VRAM न्यूनतम की आवश्यकता होती है। 14B मॉडल (T2V, I2V, FLF2V) को अधिक शक्तिशाली हार्डवेयर की आवश्यकता होती है, जिसमें 24GB या अधिक VRAM वाले पेशेवर-ग्रेड GPU (जैसे A100, RTX 4090) की सिफारिश की जाती है, कुशल अनुमान के लिए संभावित रूप से मल्टी-GPU सेटअप की आवश्यकता होती है।
वानशियांग 2.1 VBench जैसे बेंचमार्क पर उत्कृष्ट प्रदर्शन करता है, जिसे अक्सर कुछ मेट्रिक्स (जैसे, गति की चिकनाई, विषय स्थिरता) में सोरा जैसे बंद-स्रोत मॉडल से बेहतर या तुलनीय माना जाता है। इसके मुख्य लाभ ओपन सोर्स होने, उपभोक्ता हार्डवेयर समर्थन (1.3B मॉडल), और अद्वितीय द्विभाषी टेक्स्ट जनरेशन में निहित हैं। सोरा और वीओ 2 संभवतः बंद-स्रोत हैं, संभवतः विशिष्ट सौंदर्य गुणों या लंबी वीडियो पीढ़ी पर ध्यान केंद्रित कर रहे हैं, लेकिन वानशियांग 2.1 अधिक लचीलापन और दक्षता प्रदान करता है।
जबकि वानशियांग 2.1 उच्च-गुणवत्ता वाले वीडियो उत्पन्न कर सकता है, सभी जनरेटिव मॉडल की तरह, आउटपुट गुणवत्ता में कुछ अस्थिरता हो सकती है, कभी-कभी कलाकृतियों, विकृतियों, या खराब विस्तार नियंत्रण (विशेषकर जटिल दृश्यों या विशिष्ट शैलियों जैसे पोर्ट्रेट में) का उत्पादन होता है। अन्य सीमाओं में शामिल हैं: बड़े मॉडल के लिए अपेक्षाकृत धीमी पीढ़ी की गति, उच्च हार्डवेयर आवश्यकताएं, और ओपन-सोर्स मॉडल के लिए सामान्य सामग्री सुरक्षा/नैतिक जोखिम (जैसे, अंतर्निहित वॉटरमार्किंग की कमी)।
आप स्रोत कोड, मॉडल वेट और विस्तृत उपयोग निर्देशों के लिए आधिकारिक GitHub रिपॉजिटरी पर जा सकते हैं। मॉडल हगिंग फेस हब, डिफ्यूज़र, कॉम्फीयूआई, आदि जैसे लोकप्रिय प्लेटफार्मों में भी एकीकृत हैं, जो उपयोगकर्ताओं को सीधे कॉल करने या उन्हें स्थानीय रूप से परिनियोजित करने की अनुमति देते हैं। समुदाय कई ट्यूटोरियल और उपकरण भी प्रदान करता है।
वानशियांग 2.1 कोड और मॉडल वेट अपाचे 2.0 लाइसेंस के तहत ओपन-सोर्स हैं। इसका मतलब है कि उपयोगकर्ता लाइसेंस शर्तों (जैसे, कॉपीराइट नोटिस और अस्वीकरण बनाए रखना) का पालन करने पर व्यावसायिक उद्देश्यों सहित इसका उपयोग, संशोधन और वितरण करने के लिए स्वतंत्र हैं।