प्रारंभिक धुंधले, असंगत क्लिप्स से लेकर डिफ्यूजन मॉडल और ट्रांसफॉर्मर द्वारा संचालित आश्चर्यजनक छलांग तक की यात्रा का पता लगाना जो भौतिक दुनिया का अनुकरण कर सकते हैं।
2014 - 2018
प्रारंभिक प्रयासों में रिकरेंट न्यूरल नेटवर्क (RNN) का उपयोग करके फ्रेम-दर-फ्रेम पिक्सेल की भविष्यवाणी की गई, जैसे "अनुमान लगाना" बाद के फ्रेम्स का। इस दृष्टिकोण में दीर्घकालिक निर्भरता के कारण त्रुटि संचय की समस्या थी, जिससे उत्पन्न वीडियो तेजी से धुंधले और विकृत हो जाते थे।
फ्रेम T
(वास्तविक)
फ्रेम T+1
(भविष्यवाणी)
फ्रेम T+1
(भविष्यवाणी)
फ्रेम T+2
(धुंधला)
मुख्य चुनौती: त्रुटि संचय के कारण छवि की तेजी से गिरावट।
2018 - 2022
GAN (जेनेरेटिव एडवर्सेरियल नेटवर्क्स) ने "जेनरेटर" और "डिस्क्रिमिनेटर" की प्रतिस्पर्धा के माध्यम से छवि गुणवत्ता में सुधार किया लेकिन समयिक स्थिरता सुनिश्चित करना कठिन था। VAE (वेरिएशनल ऑटोएन्कोडर) ने डेटा के गुप्त प्रतिनिधित्व को सीखा लेकिन उत्पन्न परिणामों में अक्सर धुंधलाहट और मोड कोलैप्स की समस्याएं थीं।
← जेनरेटर अनुकूलन
डिस्क्रिमिनेटर अनुकूलन →
मुख्य चुनौती: GAN प्रशिक्षण अस्थिरता और वीडियो में समयिक सुसंगति की कमी।
2022 - 2023
कम्प्यूटेशनल लागत की समस्या को हल करने के लिए, लेटेंट डिफ्यूजन मॉडल (LDM) का जन्म हुआ। यह चतुराई से VAE का उपयोग करके वीडियो को कम-आयामी गुप्त स्थान में संपीड़ित करता है, इस स्थान में डिफ्यूजन मॉडल के माध्यम से कुशल डी-नॉइज़िंग जेनरेशन करता है, और अंत में VAE के माध्यम से पिक्सेल स्थान में डिकोड करता है। इस आर्किटेक्चर ने दक्षता और व्यावहारिकता में काफी सुधार किया।
महत्व: कम्प्यूटेशनल दक्षता और जेनरेशन गुणवत्ता का पूर्ण संयोजन प्राप्त किया।
2024 की शुरुआत
Sora द्वारा प्रतिनिधित्व किए गए इस आर्किटेक्चर ने डिफ्यूजन मॉडल के बैकबोन के रूप में U-Net को ट्रांसफॉर्मर से बदल दिया। वीडियो को स्पेसियो-टेम्पोरल पैच में विघटित करके, ट्रांसफॉर्मर का सेल्फ-अटेंशन मैकेनिज्म लंबी दूरी की स्पेसियो-टेम्पोरल निर्भरताओं को पकड़ता है, मौलिक रूप से समयिक सुसंगति की समस्या को हल करता है।
2. गुप्त स्थान को स्पेसियो-टेम्पोरल पैच अनुक्रम में विघटित
↓3. भाषा की तरह पैच अनुक्रम को संसाधित करना
महत्व: वीडियो जेनरेशन को "विज़ुअल भाषा" के अनुक्रम मॉडलिंग के रूप में मानना, गुणात्मक छलांग प्राप्त करना।
2024 - वर्तमान
तकनीकी प्रतिस्पर्धा नए आयामों में प्रवेश कर गई है, मॉडल न केवल लंबे जेनरेशन समय का पीछा करते हैं बल्कि सिंक्रोनाइज़्ड ऑडियो-वीडियो जेनरेशन भी प्राप्त करना शुरू करते हैं, सामग्री को अधिक इमर्सिव बनाते हैं। Google Veo 3 जैसे मॉडल नेटिव ऑडियो जेनरेशन क्षमताओं का एकीकरण शुरू करते हैं, पूर्ण, इमर्सिव मल्टीमॉडल सामग्री जेनरेशन की दिशा में प्रगति का संकेत देते हैं।
प्रवृत्ति: एकल मॉडल जेनरेशन से दृश्य, श्रवण आदि बहु-संवेदी सामग्री के सहयोगी निर्माण की ओर।
डिफ्यूजन ट्रांसफॉर्मर (DiT) आर्किटेक्चर को अपनाता है, "विश्व सिमुलेटर" को लक्ष्य बनाता है, भौतिक यथार्थवाद, दीर्घकालिक सुसंगति और मल्टीमॉडल क्षमताओं में उद्योग के नए मानक स्थापित करता है।
डिफ्यूजन ट्रांसफॉर्मरमुख्य स्पेसियो-टेम्पोरल U-Net (STUNet) आर्किटेक्चर है, पूरे स्पेसियो-टेम्पोरल वॉल्यूम को एक बार में जेनरेट करता है, अंतिम चिकनाई और वैश्विक गति स्थिरता का पीछा करता है, Gemini के साथ गहराई से एकीकृत होकर शक्तिशाली सिमेंटिक नियंत्रण प्राप्त करता है।
स्पेसियो-टेम्पोरल U-Netउद्योग के अग्रणी के रूप में, इसका विकास "वीडियो रूपांतरण" से "प्रत्यक्ष निर्माण" की प्रवृत्ति को दर्शाता है। Gen-3 सूक्ष्म कैमरा नियंत्रण, गति नियंत्रण और फोटो-स्तरीय यथार्थवादी मानव जेनरेशन पर केंद्रित है।
मल्टीमॉडल जेनरेशनउपयोगकर्ता-अनुकूल इंटरफेस और तेज़ जेनरेशन के लिए प्रसिद्ध, AI वीडियो के प्रसार को काफी बढ़ावा दिया। मॉडल दक्षता, प्रॉम्प्ट अनुपालन और रचनात्मक प्रभावों में उत्कृष्ट प्रदर्शन करता है।
उच्च दक्षता और उपयोगकर्ता-अनुकूलडिफ्यूजन ट्रांसफॉर्मर आर्किटेक्चर को अपनाता है और 3D स्पेसियो-टेम्पोरल अटेंशन मैकेनिज्म को फ्यूज़ करता है, विभिन्न दृष्टिकोणों की ताकतों को एकत्रित करता है, वास्तविक दुनिया के भौतिक और गति नियमों का सटीक अनुकरण करने का लक्ष्य रखता है।
हाइब्रिड आर्किटेक्चरउच्च गुणवत्ता जेनरेशन प्रभावों और अनूठी प्राकृतिक भाषा संपादन क्षमताओं पर केंद्रित है, उपयोगकर्ताओं को निर्देशों के माध्यम से जेनरेट की गई वीडियो सामग्री को सीधे संशोधित करने की अनुमति देता है, नियंत्रणीयता बढ़ाता है।
प्राकृतिक भाषा संपादनएक व्यापक और खुला वीडियो फाउंडेशन मॉडल सूट। इसकी मुख्य विशेषता यह है कि यह उपभोक्ता-ग्रेड GPU पर चल सकता है और वीडियो में चीनी-अंग्रेजी द्विभाषी टेक्स्ट जेनरेशन को अग्रणी रूप से प्राप्त करता है, व्यावहारिकता को काफी बढ़ाता है।
ओपन सोर्स योगदान