تتبع الرحلة من المقاطع الأولى الضبابية وغير المترابطة إلى القفزات المذهلة المدفوعة بنماذج الانتشار والمحولات التي يمكنها محاكاة العالم الفيزيائي.
2014 - 2018
استخدمت المحاولات الأولى الشبكات العصبية المتكررة (RNN) للتنبؤ بالبكسل إطار بإطار، مثل "التخمين" للإطارات اللاحقة. عانى هذا النهج من تراكم الأخطاء بسبب التبعيات طويلة المدى، مما تسبب في أن تصبح مقاطع الفيديو المولدة ضبابية ومشوهة بسرعة.
الإطار T
(حقيقي)
الإطار T+1
(متنبأ به)
الإطار T+1
(متنبأ به)
الإطار T+2
(ضبابي)
التحدي الأساسي: تراكم الأخطاء يؤدي إلى تدهور سريع في الصورة.
2018 - 2022
حسنت شبكات GAN (الشبكات التوليدية التنافسية) جودة الصورة من خلال منافسة المولد-المميز لكنها واجهت صعوبات مع الاتساق الزمني. تعلمت VAE (المشفرات التلقائية المتغيرة) التمثيلات الكامنة للبيانات لكنها غالباً ما أنتجت نتائج ضبابية وانهيار الأنماط.
← تحسين المولد
تحسين المميز →
التحدي الأساسي: عدم استقرار تدريب GAN ونقص التماسك الزمني في مقاطع الفيديو.
2022 - 2023
لمعالجة التكاليف الحاسوبية، ظهرت نماذج الانتشار الكامنة (LDM). تستخدم بذكاء VAE لضغط مقاطع الفيديو في مساحة كامنة منخفضة الأبعاد، وتؤدي توليد إزالة الضوضاء الفعال عبر نماذج الانتشار، ثم تفك التشفير مرة أخرى إلى مساحة البكسل من خلال VAE. هذه البنية حسنت بشكل كبير الكفاءة والعملية.
الأهمية: حقق توازناً مثالياً بين الكفاءة الحاسوبية وجودة التوليد.
أوائل 2024
ممثلة بـ Sora، استبدلت هذه البنية U-Net بـ Transformer كعمود فقري لنموذج الانتشار. من خلال تفكيك مقاطع الفيديو إلى رقع مكانية-زمنية، تلتقط آلية الانتباه الذاتي للمحول التبعيات المكانية-الزمنية بعيدة المدى، حلاً جوهرياً لتحديات التماسك الزمني.
2. المساحة الكامنة مفككة إلى تسلسلات رقع مكانية-زمنية
↓3. معالجة تسلسلات الرقع مثل اللغة
الأهمية: معاملة توليد الفيديو كنمذجة تسلسل 'اللغة البصرية'، تحقيق اختراقات نوعية.
2024 - الحاضر
تدخل المنافسة التقنية أبعاداً جديدة. النماذج لا تسعى فقط لأوقات توليد أطول بل تبدأ أيضاً في تحقيق توليد متزامن للصوت والفيديو لمحتوى أكثر غمراً. نماذج مثل Google Veo 3 تدمج قدرات توليد الصوت الأصلية، مما يشير إلى تقدم نحو توليد محتوى متعدد الوسائط كامل وغامر.
الاتجاه: من التوليد أحادي الوسائط إلى الإبداع التعاوني للمحتوى البصري والسمعي ومتعدد الحواس.
يستخدم بنية محول الانتشار (DiT)، يهدف لأن يكون 'محاكي عالمي' ويضع معايير صناعية جديدة في الواقعية الفيزيائية والتماسك طويل المدى والقدرات متعددة الوسائط.
محول الانتشارالبنية الأساسية هي U-Net المكاني-الزمني (STUNet)، توليد أحجام مكانية-زمنية كاملة دفعة واحدة، سعياً للنعومة القصوى واتساق الحركة العالمي، مدمج بعمق مع Gemini للتحكم الدلالي القوي.
U-Net المكاني-الزمنيكرائد في الصناعة، يعكس تطوره الاتجاه من 'تحويل الفيديو' إلى 'الإبداع المباشر'. يركز Gen-3 على التحكم الدقيق في الكاميرا وتحكم الحركة وتوليد البشر الواقعي فوتوغرافياً.
التوليد متعدد الوسائطمعروف بالواجهة الودودة والتوليد السريع، يعزز بشكل كبير اعتماد فيديو الذكاء الاصطناعي. النموذج يتفوق في الكفاءة والالتزام بالمطالبات والتأثيرات الإبداعية.
فعال وودوديستخدم بنية محول الانتشار المدمجة مع آليات الانتباه المكاني-الزمني ثلاثي الأبعاد، يجمع نقاط القوة من مناهج مختلفة لمحاكاة قوانين الفيزياء والحركة في العالم الحقيقي بدقة.
البنية الهجينةيركز على تأثيرات التوليد عالية الجودة وقدرات التحرير بالللغة الطبيعية الفريدة، يسمح للمستخدمين بتعديل محتوى الفيديو المولد مباشرة من خلال التعليمات، تعزيز القابلية للتحكم.
التحرير باللغة الطبيعيةمجموعة شاملة ومفتوحة من نماذج أساس الفيديو. نقطة تميزها هي القدرة على العمل على وحدات معالجة الرسومات من مستوى المستهلك والدعم الرائد لتوليد النص ثنائي اللغة الصيني-الإنجليزي في مقاطع الفيديو، تعزيز العملية بشكل كبير.
مساهمة المصدر المفتوح