استكشف الميزات القوية لـ Wan 2.1 ، وهو نموذج توليد فيديو بالذكاء الاصطناعي مفتوح المصدر يعتمد على Diffusion Transformer و Wan-VAE ، ويدعم مهام مختلفة مثل T2V و I2V والمزيد.
يعتمد على Diffusion Transformer ، ويدمج بنية Wan-VAE المبتكرة ، ويدعم مهام متعددة مثل T2V و I2V.
يتفوق في المعايير المرجعية الموثوقة مثل VBench (الدرجة الشاملة 84.7٪ +) ، وهو بارع بشكل خاص في التعامل مع الديناميكيات المعقدة والعلاقات المكانية والتفاعلات متعددة الكائنات.
يتطلب نموذج 1.3B خفيف الوزن حوالي 8 جيجابايت فقط من VRAM ، ويعمل بسلاسة على وحدات معالجة الرسومات الاستهلاكية السائدة ، مما يقلل بشكل كبير من حاجز الدخول.
لا يقتصر على T2V / I2V ، بل يدعم أيضًا الاحتياجات الإبداعية المتنوعة مثل تحرير الفيديو والترميم والتوسيع وتوليد الصوت (V2A).
رائد في التوليد الواضح للنص ثنائي اللغة (الصينية / الإنجليزية) داخل مقاطع الفيديو ، ويدعم تأثيرات الخطوط المختلفة ، ويوسع حدود التطبيق بشكل كبير.
تحسن بنية VAE الزمكانية ثلاثية الأبعاد الجديدة بشكل كبير كفاءة وجودة الترميز / فك التشفير ، وتدعم معالجة الفيديو الطويلة عالية الدقة ، وتحقق التوازن بين السرعة و VRAM.
يتبع ترخيص Apache 2.0 ، ويفتح بالكامل كود النموذج والأوزان ، ويحتضن المجتمع بنشاط لتعزيز التكنولوجيا ونشر التطبيقات بشكل مشترك.
توليد دقيق لتدفقات الفيديو الواقعية التي تحتوي على حركات الجسم الكبيرة ، ودوران الكائنات ، وتغييرات المشهد ، وحركات الكاميرا.
مثال: محاكاة لقطة ديناميكية لمتزلج ثلج يسرع ويركل الثلج في منظر طبيعي ثلجي.
محاكاة دقيقة لقوانين الفيزياء في العالم الحقيقي لتوليد تفاعلات كائن بديهية وتأثيرات ديناميكية.
مثال: يؤدي دب الباندا حيل تزلج صعبة في شوارع المدينة ، بما في ذلك القفزات والدوران والطحن ، بحركات سلسة وطبيعية تعرض مهارة رائعة.
تقديم جودة بصرية مماثلة للأفلام ، وتوليد إطارات فيديو ذات مواد غنية وإضاءة واقعية وأنماط متنوعة.
مثال: لقطة سينمائية مقربة تلتقط وجه جاسوس متحول.
يعتمد على تقنية Wan-Edit ، ويدعم عمليات تحرير الفيديو المتنوعة لضبط المحتوى بدقة.
مثال: استبدال الخلفية أو إضافة عناصر مع الحفاظ على الهيكل الرئيسي للفيديو.
دعم رائد لتوليد نص ثنائي اللغة (صيني / إنجليزي) واضح وديناميكي مباشرة داخل إطارات الفيديو ، قابل للتطبيق مع خطوط وتأثيرات مختلفة.
مثال على المطالبة (فن الحبر): "على خلفية ورقة رأس السنة الصينية الحمراء ، تنتشر قطرة حبر ببطء ، وتشكل حرفًا طبيعيًا وغير واضح" 福 "(Fu - نعمة) ، مع تلاشي لون الحبر من الداكن إلى الفاتح ، مما يعرض الجماليات الشرقية."
مثال: إضافة شعارات أو تعليقات توضيحية ديناميكية إلى فيديو عرض توضيحي للمنتج.
لا يقتصر الأمر على توليد المرئيات فحسب ، بل يطابق أو يولد بذكاء المؤثرات الصوتية وموسيقى الخلفية (V2A) المتوافقة مع المحتوى والإيقاع.
مثال على المطالبة (سقوط مكعب الثلج): "لقطة مقربة ، تسقط مكعبات الثلج من ارتفاع في كوب ، وتنتج أصوات تكسير وأصوات سائل يتخبط ..." (يولد مؤثرات صوتية مطابقة)
مثال: إنشاء موسيقى خلفية تلقائيًا تتناسب مع الحبكة والجو لفيلم رسوم متحركة قصير.
يقدم Wan 2.1 متغيرات نموذجية بمقاييس معلمات ووظائف مختلفة لتلبية الاحتياجات المختلفة من التحقق السريع إلى الإنشاء عالي الجودة ، وكلها مفتوحة المصدر بموجب ترخيص Apache 2.0.
1.3 مليار معلمة
نص إلى فيديو (T2V) ، مع التركيز على دقة 480p. مُحسَّن لوحدات معالجة الرسومات الاستهلاكية مع متطلبات VRAM منخفضة (حوالي 8 جيجابايت).
14 مليار معلمة
نص إلى فيديو (T2V) ، يوفر جودة ممتازة ، ويدعم دقة 480p / 720p ، مع إمكانات فريدة لتوليد نص ثنائي اللغة.
14 مليار معلمة
صورة إلى فيديو (I2V) ، توليد الفيديو من خلال الجمع بين مراجع الصور ومطالبات النص ، متوفر في متغيرات عالية الجودة 480p و 720p.
14 مليار معلمة
إطار أول وآخر إلى فيديو (FLF2V) ، يقوم بتجميع التحولات بين إطارات البداية والنهاية بذكاء لتوليد فيديو سلس ، ويدعم تسريع وحدات معالجة الرسومات المتعددة.
🚀 يطلق مختبر Alibaba Tongyi أول نموذج كبير لإطار أول وآخر إلى فيديو بـ 14 مليار معلمة! مفتوح المصدر بالكامل ، يوفر للفنانين الرقميين كفاءة إبداعية ومرونة غير مسبوقة.
توليد محتوى فيديو سينمائي عالي الدقة بتفاصيل غنية وفيزياء واقعية.
التقاط وتوليد حركات الكائنات المعقدة وحركات الكاميرا والتفاعلات الديناميكية الطبيعية بدقة.
قدرة فريدة على توليد نص ثنائي اللغة داخل الفيديو تضيف المزيد من الإمكانيات لإنشاء المحتوى.
توفر تقنية Wan-VAE المتقدمة سرعة معالجة أسرع وكفاءة أفضل في استخدام الموارد.
يسمح المصدر المفتوح جنبًا إلى جنب مع دعم أجهزة المستهلك للجميع بتجربة تقنية الفيديو بالذكاء الاصطناعي المتطورة.
الاستفادة من المساهمات والتحسينات والتكاملات من المطورين العالميين ، وتعزيز النمو المستمر للنظام البيئي.
يعتمد Wan 2.1 على نموذج Diffusion Transformer (DiT) السائد ويقدم برنامج التشفير التلقائي المتغير المكاني الزماني ثلاثي الأبعاد المبتكر (Wan-VAE) لمعالجة بيانات الفيديو بكفاءة. كما أنه يستخدم تقنيات Flow Matching ويفهم مطالبات النص عبر مشفر T5 ، ويدمج المعلومات النصية والمرئية باستخدام آليات الانتباه المتقاطع.
تعتمد متطلبات الأجهزة على إصدار النموذج. نموذج 1.3B T2V صديق جدًا لوحدات معالجة الرسومات الاستهلاكية ، ويتطلب حوالي 8 جيجابايت فقط من VRAM كحد أدنى. تتطلب نماذج 14B (T2V ، I2V ، FLF2V) أجهزة أكثر قوة ، وتوصي بوحدات معالجة رسومات احترافية بسعة 24 جيجابايت أو أكثر من VRAM (مثل A100 ، RTX 4090) ، وقد تحتاج إلى إعدادات متعددة لوحدات معالجة الرسومات للاستدلال الفعال.
يقدم Wan 2.1 أداءً ممتازًا في المعايير المرجعية مثل VBench ، وغالبًا ما يُعتبر متفوقًا أو مشابهًا لنماذج المصدر المغلق مثل Sora في مقاييس معينة (مثل سلاسة الحركة واتساق الموضوع). تكمن مزاياها الرئيسية في كونها مفتوحة المصدر ، ودعم أجهزة المستهلك (نموذج 1.3B) ، وتوليد نص ثنائي اللغة فريد. من المحتمل أن يكون Sora و Veo 2 مغلقي المصدر ، ويركزان ربما على صفات جمالية محددة أو توليد فيديو أطول ، لكن Wan 2.1 يوفر مرونة وكفاءة أكبر.
بينما يمكن لـ Wan 2.1 إنشاء مقاطع فيديو عالية الجودة ، مثل جميع النماذج التوليدية ، يمكن أن يكون لجودة الإخراج بعض عدم الاستقرار ، مما ينتج عنه أحيانًا عيوب أو تشوهات أو تحكم ضعيف في التفاصيل (خاصة في المشاهد المعقدة أو الأنماط المحددة مثل الصور الشخصية). تشمل القيود الأخرى: سرعة توليد أبطأ نسبيًا للنماذج الأكبر ، ومتطلبات أجهزة عالية ، ومخاطر السلامة / الأخلاقيات المتعلقة بالمحتوى الشائعة في نماذج المصدر المفتوح (مثل عدم وجود علامة مائية مدمجة).
يمكنك زيارة مستودع GitHub الرسمي للحصول على الكود المصدري وأوزان النموذج وتعليمات الاستخدام التفصيلية. تم دمج النماذج أيضًا في منصات شائعة مثل Hugging Face Hub و Diffusers و ComfyUI وما إلى ذلك ، مما يسمح للمستخدمين باستدعائها مباشرة أو نشرها محليًا. يوفر المجتمع أيضًا العديد من البرامج التعليمية والأدوات.
كود Wan 2.1 وأوزان النموذج مفتوحة المصدر بموجب ترخيص Apache 2.0. هذا يعني أن المستخدمين أحرار في استخدامه وتعديله وتوزيعه ، بما في ذلك للأغراض التجارية ، شريطة امتثالهم لشروط الترخيص (مثل الاحتفاظ بإشعارات حقوق النشر وإخلاء المسؤولية).