Wan 2.5 Preview
ثورة في السرد القصصي متعدد الحواس. دمج الصوت الأصلي مع التحكم البصري السينمائي، معيدًا تعريف حدود إنشاء الفيديو بالذكاء الاصطناعي.
قفزة نوعية في القدرات
يدمج Wan 2.5 جوهر النماذج السابقة مع تحقيق اختراقات نوعية في الأبعاد الرئيسية.
السرد القصصي متعدد الحواس
تنفيذ لأول مرة لمعالجة الصوت والفيديو المتزامنة، مما يوفر السرد الأصلي ومزامنة الشفاه الدقيقة والمؤثرات الصوتية البيئية الغامرة.
جودة سينمائية 4K
يدعم إخراج دقة تصل إلى 4K، ويقدم وجوهًا واقعية للصور، وملمس الجلد، وتفاصيل الملابس التي تلبي معايير الإنتاج الاحترافية.
تحكم سينمائي دقيق
يوفر عناصر تحكم متقدمة في الكاميرا بما في ذلك التحريك والتكبير والتبديل البؤري، مما يسمح للمبدعين 'بإخراج' المشاهد بدلاً من مجرد 'وصفها'.
مدة سرد ممتدة
يدعم إنشاء مقاطع فيديو تصل مدتها إلى 10 ثوانٍ، وهو ما يكفي لتكوين إيقاع سردي كامل أو إعلان قصير.
مسار التطور: من المصدر المفتوح إلى القمة
يقف Wan 2.5 على أكتاف العمالقة، ويمثل النتيجة الحتمية للتكرار التقني والتطور الاستراتيجي.
Wan 2.1 / 2.2
مؤسسة المصدر المفتوح
أسس قيادة المجتمع ونشر إنشاء الفيديو عالي الأداء.
ثورة بنية MoE
قدم بنية مزيج الخبراء، مما أدى إلى تحقيق أداء نموذج قابل للتطوير.
Wan 2.5 Preview
تكامل القدرات
يدمج الصوت والرسوم المتحركة والتحكم المتقدم في نموذج موحد.
واجهة برمجة تطبيقات تجارية
ينتقل إلى السوق الاحترافي المتطور، ويوفر خدمات واجهة برمجة تطبيقات مغلقة المصدر.
إعادة تشكيل هيكل السوق
يمثل إصدار Wan 2.5 دخول سوق الفيديو التوليفي حقبة جديدة من الهيكل ثلاثي المستويات.
معيار الصناعة
نماذج رائدة مقدمة من أفضل المختبرات (OpenAI, Google, Alibaba) من خلال الوصول إلى واجهة برمجة التطبيقات، والسعي لتحقيق أعلى جودة وأقوى تحكم.
الممثلون: Sora, Veo, Wan 2.5
الدعامة الأساسية للمجتمع
نماذج مفتوحة المصدر عالية الجودة ولكنها متأخرة بجيل واحد، تعمل كأساس للتجربة المجتمعية والتعلم والمشاريع غير التجارية.
الممثلون: Wan 2.2, Stable Video Diffusion
رواد الابتكار
نماذج صغيرة أو متخصصة يقودها المجتمع توفر ميزات فريدة أو محسّنة لأجهزة معينة، وتعمل كمصدر لتنوع النظام البيئي.
الممثلون: نماذج المجتمع
مقارنة ميزات وبنية سلسلة نماذج Wan
يوضح الجدول أدناه بشكل بديهي مسار التطور الكامل لسلسلة نماذج Wan من الوصول المفتوح إلى التسويق الاحترافي من خلال مقارنة البنية الأساسية والابتكارات الرئيسية ونماذج الإصدار.
البنية الأساسية | Wan 2.1 | Wan 2.2 | Wan 2.5 Preview (معلن/متوقع) |
---|---|---|---|
البنية الأساسية | محول الانتشار القياسي | مزيج الخبراء (MoE) (ضوضاء عالية/منخفضة) | بنية MoE المتطورة |
حجم النموذج | 1.3 مليار و 14 مليار معلمة | 14 مليار معلمة نشطة / 27 مليار إجمالي المعلمات | ربما > 30 مليار إجمالي المعلمات |
الابتكار الرئيسي | إمكانية الوصول والكفاءة مفتوحة المصدر | يحقق MoE أداءً قابلاً للتطوير | متعدد الوسائط متكامل (صوت-فيديو) |
الدقة القصوى | 720p (غير مستقر)، 480p (موصى به) | 720p / 1080p | 4K (مزعوم)، 1080p (مؤكد من واجهة برمجة التطبيقات) |
المدة القصوى | ~3-5 ثواني | ~5 ثواني | 10+ ثواني |
النمط الأساسي | T2V, I2V, تحرير الفيديو | T2V, I2V, ونماذج S2V و Animate المخصصة | T2V, I2V موحد، مزامنة الصوت والفيديو، رسوم متحركة متقدمة |
التحكم السينمائي | أساسي | "تحكم جمالي سينمائي" | تحكم دقيق في الكاميرا والإضاءة والمشهد |
نموذج الإصدار | مصدر مفتوح (Apache 2.0) | مصدر مفتوح (Apache 2.0) | واجهة برمجة تطبيقات فقط (مصدر مغلق) |