Wan 2.1: نموذج توليد الفيديو بالذكاء الاصطناعي مفتوح المصدر

استكشف الميزات القوية لـ Wan 2.1 ، وهو نموذج توليد فيديو بالذكاء الاصطناعي مفتوح المصدر يعتمد على Diffusion Transformer و Wan-VAE ، ويدعم مهام مختلفة مثل T2V و I2V والمزيد.

يعتمد على Diffusion Transformer ، ويدمج بنية Wan-VAE المبتكرة ، ويدعم مهام متعددة مثل T2V و I2V.

المزايا الأساسية لـ Wan 2.1

أداء رائد في الصناعة

يتفوق في المعايير المرجعية الموثوقة مثل VBench (الدرجة الشاملة 84.7٪ +) ، وهو بارع بشكل خاص في التعامل مع الديناميكيات المعقدة والعلاقات المكانية والتفاعلات متعددة الكائنات.

وحدة معالجة رسومات للمستهلكين

يتطلب نموذج 1.3B خفيف الوزن حوالي 8 جيجابايت فقط من VRAM ، ويعمل بسلاسة على وحدات معالجة الرسومات الاستهلاكية السائدة ، مما يقلل بشكل كبير من حاجز الدخول.

دعم متعدد المهام متعدد الاستخدامات

لا يقتصر على T2V / I2V ، بل يدعم أيضًا الاحتياجات الإبداعية المتنوعة مثل تحرير الفيديو والترميم والتوسيع وتوليد الصوت (V2A).

عرض نص فريد

رائد في التوليد الواضح للنص ثنائي اللغة (الصينية / الإنجليزية) داخل مقاطع الفيديو ، ويدعم تأثيرات الخطوط المختلفة ، ويوسع حدود التطبيق بشكل كبير.

بنية Wan-VAE الفعالة

تحسن بنية VAE الزمكانية ثلاثية الأبعاد الجديدة بشكل كبير كفاءة وجودة الترميز / فك التشفير ، وتدعم معالجة الفيديو الطويلة عالية الدقة ، وتحقق التوازن بين السرعة و VRAM.

نظام بيئي مفتوح المصدر

يتبع ترخيص Apache 2.0 ، ويفتح بالكامل كود النموذج والأوزان ، ويحتضن المجتمع بنشاط لتعزيز التكنولوجيا ونشر التطبيقات بشكل مشترك.

أطلق العنان للإبداع: استكشف الميزات القوية لـ Wan 2.1

التقاط الحركة المعقدة بسلاسة

توليد دقيق لتدفقات الفيديو الواقعية التي تحتوي على حركات الجسم الكبيرة ، ودوران الكائنات ، وتغييرات المشهد ، وحركات الكاميرا.

  • رقصات ديناميكية (مثل الهيب هوب ، الفالس)
  • المسابقات الرياضية (مثل الملاكمة ، ركوب الدراجات)
  • حركات الكاميرا السريعة والتتبع

مثال: محاكاة لقطة ديناميكية لمتزلج ثلج يسرع ويركل الثلج في منظر طبيعي ثلجي.

إعادة إنشاء العالم المادي بشكل واقعي

محاكاة دقيقة لقوانين الفيزياء في العالم الحقيقي لتوليد تفاعلات كائن بديهية وتأثيرات ديناميكية.

  • تأثيرات السوائل (مثل تموجات الماء ، الرذاذ)
  • تصادمات وتشوهات الأجسام الصلبة
  • تأثيرات الجسيمات (مثل الدخان ، الشرر)

مثال: يؤدي دب الباندا حيل تزلج صعبة في شوارع المدينة ، بما في ذلك القفزات والدوران والطحن ، بحركات سلسة وطبيعية تعرض مهارة رائعة.

صياغة ولائم بصرية سينمائية

تقديم جودة بصرية مماثلة للأفلام ، وتوليد إطارات فيديو ذات مواد غنية وإضاءة واقعية وأنماط متنوعة.

  • تمثيل نسيج المواد الدقيقة
  • خلق إضاءة وأجواء غنية
  • دعم عمليات نقل الأنماط الفنية المختلفة

مثال: لقطة سينمائية مقربة تلتقط وجه جاسوس متحول.

تحقيق تحرير دقيق قابل للتحكم

يعتمد على تقنية Wan-Edit ، ويدعم عمليات تحرير الفيديو المتنوعة لضبط المحتوى بدقة.

  • نقل النمط أو المحتوى باستخدام صور / مقاطع فيديو مرجعية
  • الحفاظ على هياكل محددة أو أوضاع الشخصيات
  • إكمال الفيديو وتوسيعه (Inpainting and outpainting)

مثال: استبدال الخلفية أو إضافة عناصر مع الحفاظ على الهيكل الرئيسي للفيديو.

توليد نص ديناميكي داخل الفيديو

دعم رائد لتوليد نص ثنائي اللغة (صيني / إنجليزي) واضح وديناميكي مباشرة داخل إطارات الفيديو ، قابل للتطبيق مع خطوط وتأثيرات مختلفة.

مثال على المطالبة (فن الحبر): "على خلفية ورقة رأس السنة الصينية الحمراء ، تنتشر قطرة حبر ببطء ، وتشكل حرفًا طبيعيًا وغير واضح" 福 "(Fu - نعمة) ، مع تلاشي لون الحبر من الداكن إلى الفاتح ، مما يعرض الجماليات الشرقية."

مثال: إضافة شعارات أو تعليقات توضيحية ديناميكية إلى فيديو عرض توضيحي للمنتج.

مطابقة المؤثرات الصوتية والموسيقى بذكاء

لا يقتصر الأمر على توليد المرئيات فحسب ، بل يطابق أو يولد بذكاء المؤثرات الصوتية وموسيقى الخلفية (V2A) المتوافقة مع المحتوى والإيقاع.

مثال على المطالبة (سقوط مكعب الثلج): "لقطة مقربة ، تسقط مكعبات الثلج من ارتفاع في كوب ، وتنتج أصوات تكسير وأصوات سائل يتخبط ..." (يولد مؤثرات صوتية مطابقة)

مثال: إنشاء موسيقى خلفية تلقائيًا تتناسب مع الحبكة والجو لفيلم رسوم متحركة قصير.

اختيار نماذج متنوعة ، مفتوحة المصدر بالكامل

يقدم Wan 2.1 متغيرات نموذجية بمقاييس معلمات ووظائف مختلفة لتلبية الاحتياجات المختلفة من التحقق السريع إلى الإنشاء عالي الجودة ، وكلها مفتوحة المصدر بموجب ترخيص Apache 2.0.

Wan2.1-T2V-1.3B

1.3 مليار معلمة

نص إلى فيديو (T2V) ، مع التركيز على دقة 480p. مُحسَّن لوحدات معالجة الرسومات الاستهلاكية مع متطلبات VRAM منخفضة (حوالي 8 جيجابايت).

صديق للمستهلك 480p

Wan2.1-T2V-14B

14 مليار معلمة

نص إلى فيديو (T2V) ، يوفر جودة ممتازة ، ويدعم دقة 480p / 720p ، مع إمكانات فريدة لتوليد نص ثنائي اللغة.

جودة عالية نص ثنائي اللغة 480p/720p

Wan2.1-I2V-14B

14 مليار معلمة

صورة إلى فيديو (I2V) ، توليد الفيديو من خلال الجمع بين مراجع الصور ومطالبات النص ، متوفر في متغيرات عالية الجودة 480p و 720p.

مدفوع بالصورة 480p/720p

Wan2.1-FLF2V-14B

14 مليار معلمة

إطار أول وآخر إلى فيديو (FLF2V) ، يقوم بتجميع التحولات بين إطارات البداية والنهاية بذكاء لتوليد فيديو سلس ، ويدعم تسريع وحدات معالجة الرسومات المتعددة.

استيفاء الإطارات 720p متعدد وحدات معالجة الرسومات
إصدار جديد

إطلاق كبير لـ Wan2.1-FLF2V-14B

🚀 يطلق مختبر Alibaba Tongyi أول نموذج كبير لإطار أول وآخر إلى فيديو بـ 14 مليار معلمة! مفتوح المصدر بالكامل ، يوفر للفنانين الرقميين كفاءة إبداعية ومرونة غير مسبوقة.

🔧 أبرز الملامح التقنية

  • يعتمد على التدريب القائم على البيانات وبنية DiT ، جنبًا إلى جنب مع التحكم الشرطي للإطار الأول والأخير
  • يكرر العناصر المرئية المرجعية بشكل مثالي ، ويتبع التعليمات بدقة
  • انتقالات سلسة وتأثيرات فيزيائية واقعية
  • جودة إخراج سينمائية 720P

لماذا Wan 2.1 هو خيارك المثالي؟

جودة بصرية ممتازة

توليد محتوى فيديو سينمائي عالي الدقة بتفاصيل غنية وفيزياء واقعية.

فهم قوي للحركة

التقاط وتوليد حركات الكائنات المعقدة وحركات الكاميرا والتفاعلات الديناميكية الطبيعية بدقة.

زرع نص مبتكر

قدرة فريدة على توليد نص ثنائي اللغة داخل الفيديو تضيف المزيد من الإمكانيات لإنشاء المحتوى.

إطار توليد فعال

توفر تقنية Wan-VAE المتقدمة سرعة معالجة أسرع وكفاءة أفضل في استخدام الموارد.

دمقرطة التكنولوجيا

يسمح المصدر المفتوح جنبًا إلى جنب مع دعم أجهزة المستهلك للجميع بتجربة تقنية الفيديو بالذكاء الاصطناعي المتطورة.

تمكين المجتمع النشط

الاستفادة من المساهمات والتحسينات والتكاملات من المطورين العالميين ، وتعزيز النمو المستمر للنظام البيئي.

الأسئلة الشائعة (FAQ)

ما هي التكنولوجيا الأساسية لـ Wan 2.1؟

يعتمد Wan 2.1 على نموذج Diffusion Transformer (DiT) السائد ويقدم برنامج التشفير التلقائي المتغير المكاني الزماني ثلاثي الأبعاد المبتكر (Wan-VAE) لمعالجة بيانات الفيديو بكفاءة. كما أنه يستخدم تقنيات Flow Matching ويفهم مطالبات النص عبر مشفر T5 ، ويدمج المعلومات النصية والمرئية باستخدام آليات الانتباه المتقاطع.

ما هي تهيئة الأجهزة المطلوبة لتشغيل Wan 2.1؟

تعتمد متطلبات الأجهزة على إصدار النموذج. نموذج 1.3B T2V صديق جدًا لوحدات معالجة الرسومات الاستهلاكية ، ويتطلب حوالي 8 جيجابايت فقط من VRAM كحد أدنى. تتطلب نماذج 14B (T2V ، I2V ، FLF2V) أجهزة أكثر قوة ، وتوصي بوحدات معالجة رسومات احترافية بسعة 24 جيجابايت أو أكثر من VRAM (مثل A100 ، RTX 4090) ، وقد تحتاج إلى إعدادات متعددة لوحدات معالجة الرسومات للاستدلال الفعال.

كيف يقارن Wan 2.1 بنماذج مثل Sora و Veo 2 وما إلى ذلك؟

يقدم Wan 2.1 أداءً ممتازًا في المعايير المرجعية مثل VBench ، وغالبًا ما يُعتبر متفوقًا أو مشابهًا لنماذج المصدر المغلق مثل Sora في مقاييس معينة (مثل سلاسة الحركة واتساق الموضوع). تكمن مزاياها الرئيسية في كونها مفتوحة المصدر ، ودعم أجهزة المستهلك (نموذج 1.3B) ، وتوليد نص ثنائي اللغة فريد. من المحتمل أن يكون Sora و Veo 2 مغلقي المصدر ، ويركزان ربما على صفات جمالية محددة أو توليد فيديو أطول ، لكن Wan 2.1 يوفر مرونة وكفاءة أكبر.

هل جودة مقاطع الفيديو التي تم إنشاؤها مستقرة؟ ما هي القيود المعروفة؟

بينما يمكن لـ Wan 2.1 إنشاء مقاطع فيديو عالية الجودة ، مثل جميع النماذج التوليدية ، يمكن أن يكون لجودة الإخراج بعض عدم الاستقرار ، مما ينتج عنه أحيانًا عيوب أو تشوهات أو تحكم ضعيف في التفاصيل (خاصة في المشاهد المعقدة أو الأنماط المحددة مثل الصور الشخصية). تشمل القيود الأخرى: سرعة توليد أبطأ نسبيًا للنماذج الأكبر ، ومتطلبات أجهزة عالية ، ومخاطر السلامة / الأخلاقيات المتعلقة بالمحتوى الشائعة في نماذج المصدر المفتوح (مثل عدم وجود علامة مائية مدمجة).

كيف تبدأ مع Wan 2.1؟

يمكنك زيارة مستودع GitHub الرسمي للحصول على الكود المصدري وأوزان النموذج وتعليمات الاستخدام التفصيلية. تم دمج النماذج أيضًا في منصات شائعة مثل Hugging Face Hub و Diffusers و ComfyUI وما إلى ذلك ، مما يسمح للمستخدمين باستدعائها مباشرة أو نشرها محليًا. يوفر المجتمع أيضًا العديد من البرامج التعليمية والأدوات.

ما هو ترخيص المصدر المفتوح لـ Wan 2.1؟

كود Wan 2.1 وأوزان النموذج مفتوحة المصدر بموجب ترخيص Apache 2.0. هذا يعني أن المستخدمين أحرار في استخدامه وتعديله وتوزيعه ، بما في ذلك للأغراض التجارية ، شريطة امتثالهم لشروط الترخيص (مثل الاحتفاظ بإشعارات حقوق النشر وإخلاء المسؤولية).