ComfyUI يدعم الآن Wan2.1

🧠 ما هو Wan2.1؟

Wan2.1 هي سلسلة قوية من نماذج توليد الفيديو مفتوحة المصدر من Alibaba.

تتضمن السلسلة:

نوع النموذجالدقةذاكرة الفيديو (تقريبًا)
تحويل النص إلى فيديو 14B (T2V)480P / 720P~40GB
تحويل النص إلى فيديو 1.3B (T2V)480P~8–15GB
تحويل الصورة إلى فيديو 14B (I2V)480P / 720P~40GB
توليد النصوص المرئيةمتعدد اللغات (الصينية/الإنجليزية)متغير

🔧 الميزات الرئيسية

  • مناسب للمستهلكين:يمكن تشغيل نموذج T2V 1.3B على وحدات معالجة الرسومات (GPU) بسعة 8.19 جيجابايت تقريبًا من ذاكرة الفيديو (VRAM).
  • دعم المهام المتعددة:يدعم T2V (تحويل النص إلى فيديو)، I2V (تحويل الصورة إلى فيديو)، V2V (تحويل الفيديو إلى فيديو)، T2I (تحويل النص إلى صورة)، V2A (تحويل الفيديو إلى صوت).
  • كفاءة عالية:يمكن لـ Wan-VAE القوي معالجة مقاطع الفيديو بدقة 1080 بكسل مع الحفاظ على الاتساق الزمني.
  • دعم اللغة:أول نموذج يدعم توليد النصوص باللغتين الصينية والإنجليزية.

📂 دليل الإعداد

  1. قم بتحديث ComfyUI إلى أحدث إصدار.
  2. قم بتنزيل الملفات المطلوبة وضعها في الدلائل الفرعية المحددة لـ ComfyUI:
وصف الملفاسم الملف (انقر للتنزيل)المجلد الهدف
مشفّر النصوصumt5_xxl_fp8_e4m3fn_scaled.safetensorsComfyUI/models/text_encoders/
VAEwan_2.1_vae.safetensorsComfyUI/models/vae/
CLIP Vision (لتحويل الصورة إلى فيديو)clip_vision_h.safetensorsComfyUI/models/clip_vision/
نموذج الفيديو (نموذج الانتشار)اختر من هذا الدليل table2_row4_col2_suffixComfyUI/models/diffusion_models/

توصية بنموذج الفيديو:

  • للحصول على أفضل جودة، يوصى بإصدار fp16.
  • ترتيب الجودة (من الأعلى إلى الأدنى):fp16 > bf16 > fp8_scaled > fp8_e4m3fn
  • إذا كانت ذاكرة الفيديو (VRAM) غير كافية، ففكر في استخدام إصدار fp8.

📜 أمثلة على سير العمل

يوفر ComfyUI مسارات عمل تستند إلى JSON. يمكنك العثور على ملفات JSON هذه في أمثلة ComfyUI الرسمية أو الوثائق. فيما يلي عروض GIF لبعض مسارات العمل:

تحويل النص إلى فيديو (Text to Video)

يمكن استخدام سير العمل هذا مع نماذج 1.3B أو 14B. على سبيل المثال، استخدم:

الناتج: 480p / 720p (يعتمد على النموذج والإعدادات المحددة)

وقت التشغيل: يستغرق إنشاء فيديو بدقة 480 بكسل لمدة 5 ثوانٍ باستخدام RTX 4090 حوالي 4 دقائق.

مثال على سير العمل (1.3B 480p):

Text to Video 1.3B 480P Workflow Example

مثال على سير العمل (14B 720p):

Text to Video 14B 720P Workflow Example

ملف سير عمل JSON:text_to_video_wan.json

تحويل الصورة إلى فيديو (Image to Video)

يتطلب سير العمل هذا الملفات التالية:

الناتج: 480p (مثال افتراضي: 33 إطارًا @ 512x512) أو 720p (إذا سمحت ذاكرة الفيديو (VRAM) والأجهزة).

مثال على سير العمل (14B 480p):

Image to Video 14B 480P Workflow Example

مثال على سير العمل (14B 720p):

Image to Video 14B 720P Workflow Example

ملف سير عمل JSON:image_to_video_wan_example.json

📝 ملاحظات

  • مشفّر النصوص:مطلوب (umt5_xxl_fp8_e4m3fn_scaled.safetensors)。
  • متطلبات ذاكرة الفيديو (VRAM):لتشغيل نموذج تحويل الصورة إلى فيديو بدقة 480p/720p (مثل 14B I2V) باستخدام umt5_xxl_fp8_e4m3fn_scaled.safetensors، تحتاج إلى حوالي 40 جيجابايت من ذاكرة الفيديو (VRAM).
  • ذاكرة الفيديو (VRAM) لنموذج T2V 1.3B:يتطلب نموذج تحويل النص إلى فيديو 1.3B حوالي 15 جيجابايت من ذاكرة الفيديو (VRAM).
  • توفير ذاكرة الفيديو (VRAM):تستخدم الأمثلة عادةً ملفات 16 بت (fp16)، ولكن إذا كانت ذاكرة الفيديو (VRAM) لديك منخفضة، فيمكنك استخدام إصدارات fp8 بدلاً من ذلك.
  • نماذج 720p:تعمل نماذج 720p بشكل جيد ولكنها تتطلب مواصفات أجهزة أعلى وصبرًا لتشغيلها.