إنشاء الفيديو بالذكاء الاصطناعي من Tongyi Wanxiang

Wan 2.5 Preview

ثورة في السرد القصصي متعدد الحواس. دمج الصوت الأصلي مع التحكم البصري السينمائي، معيدًا تعريف حدود إنشاء الفيديو بالذكاء الاصطناعي.

قفزة نوعية في القدرات

يدمج Wan 2.5 جوهر النماذج السابقة مع تحقيق اختراقات نوعية في الأبعاد الرئيسية.

السرد القصصي متعدد الحواس

تنفيذ لأول مرة لمعالجة الصوت والفيديو المتزامنة، مما يوفر السرد الأصلي ومزامنة الشفاه الدقيقة والمؤثرات الصوتية البيئية الغامرة.

جودة سينمائية 4K

يدعم إخراج دقة تصل إلى 4K، ويقدم وجوهًا واقعية للصور، وملمس الجلد، وتفاصيل الملابس التي تلبي معايير الإنتاج الاحترافية.

تحكم سينمائي دقيق

يوفر عناصر تحكم متقدمة في الكاميرا بما في ذلك التحريك والتكبير والتبديل البؤري، مما يسمح للمبدعين 'بإخراج' المشاهد بدلاً من مجرد 'وصفها'.

مدة سرد ممتدة

يدعم إنشاء مقاطع فيديو تصل مدتها إلى 10 ثوانٍ، وهو ما يكفي لتكوين إيقاع سردي كامل أو إعلان قصير.

مسار التطور: من المصدر المفتوح إلى القمة

يقف Wan 2.5 على أكتاف العمالقة، ويمثل النتيجة الحتمية للتكرار التقني والتطور الاستراتيجي.

Wan 2.1 / 2.2

مؤسسة المصدر المفتوح

أسس قيادة المجتمع ونشر إنشاء الفيديو عالي الأداء.


ثورة بنية MoE

قدم بنية مزيج الخبراء، مما أدى إلى تحقيق أداء نموذج قابل للتطوير.

Wan 2.5 Preview

تكامل القدرات

يدمج الصوت والرسوم المتحركة والتحكم المتقدم في نموذج موحد.


واجهة برمجة تطبيقات تجارية

ينتقل إلى السوق الاحترافي المتطور، ويوفر خدمات واجهة برمجة تطبيقات مغلقة المصدر.

إعادة تشكيل هيكل السوق

يمثل إصدار Wan 2.5 دخول سوق الفيديو التوليفي حقبة جديدة من الهيكل ثلاثي المستويات.

المستوى 1: مصدر مغلق متطور

معيار الصناعة

نماذج رائدة مقدمة من أفضل المختبرات (OpenAI, Google, Alibaba) من خلال الوصول إلى واجهة برمجة التطبيقات، والسعي لتحقيق أعلى جودة وأقوى تحكم.

الممثلون: Sora, Veo, Wan 2.5

المستوى 2: مصدر مفتوح قديم

الدعامة الأساسية للمجتمع

نماذج مفتوحة المصدر عالية الجودة ولكنها متأخرة بجيل واحد، تعمل كأساس للتجربة المجتمعية والتعلم والمشاريع غير التجارية.

الممثلون: Wan 2.2, Stable Video Diffusion

المستوى 3: مصدر مفتوح مستقل

رواد الابتكار

نماذج صغيرة أو متخصصة يقودها المجتمع توفر ميزات فريدة أو محسّنة لأجهزة معينة، وتعمل كمصدر لتنوع النظام البيئي.

الممثلون: نماذج المجتمع

مقارنة ميزات وبنية سلسلة نماذج Wan

يوضح الجدول أدناه بشكل بديهي مسار التطور الكامل لسلسلة نماذج Wan من الوصول المفتوح إلى التسويق الاحترافي من خلال مقارنة البنية الأساسية والابتكارات الرئيسية ونماذج الإصدار.

البنية الأساسيةWan 2.1Wan 2.2Wan 2.5 Preview (معلن/متوقع)
البنية الأساسيةمحول الانتشار القياسيمزيج الخبراء (MoE) (ضوضاء عالية/منخفضة)بنية MoE المتطورة
حجم النموذج1.3 مليار و 14 مليار معلمة14 مليار معلمة نشطة / 27 مليار إجمالي المعلماتربما > 30 مليار إجمالي المعلمات
الابتكار الرئيسيإمكانية الوصول والكفاءة مفتوحة المصدريحقق MoE أداءً قابلاً للتطويرمتعدد الوسائط متكامل (صوت-فيديو)
الدقة القصوى720p (غير مستقر)، 480p (موصى به)720p / 1080p4K (مزعوم)، 1080p (مؤكد من واجهة برمجة التطبيقات)
المدة القصوى~3-5 ثواني~5 ثواني10+ ثواني
النمط الأساسيT2V, I2V, تحرير الفيديوT2V, I2V, ونماذج S2V و Animate المخصصةT2V, I2V موحد، مزامنة الصوت والفيديو، رسوم متحركة متقدمة
التحكم السينمائيأساسي"تحكم جمالي سينمائي"تحكم دقيق في الكاميرا والإضاءة والمشهد
نموذج الإصدارمصدر مفتوح (Apache 2.0)مصدر مفتوح (Apache 2.0)واجهة برمجة تطبيقات فقط (مصدر مغلق)