Wan2.1 هي سلسلة قوية من نماذج توليد الفيديو مفتوحة المصدر من Alibaba.
تتضمن السلسلة:
| نوع النموذج | الدقة | ذاكرة الفيديو (تقريبًا) |
|---|---|---|
| تحويل النص إلى فيديو 14B (T2V) | 480P / 720P | ~40GB |
| تحويل النص إلى فيديو 1.3B (T2V) | 480P | ~8–15GB |
| تحويل الصورة إلى فيديو 14B (I2V) | 480P / 720P | ~40GB |
| توليد النصوص المرئية | متعدد اللغات (الصينية/الإنجليزية) | متغير |
| وصف الملف | اسم الملف (انقر للتنزيل) | المجلد الهدف |
|---|---|---|
| مشفّر النصوص | umt5_xxl_fp8_e4m3fn_scaled.safetensors | ComfyUI/models/text_encoders/ |
| VAE | wan_2.1_vae.safetensors | ComfyUI/models/vae/ |
| CLIP Vision (لتحويل الصورة إلى فيديو) | clip_vision_h.safetensors | ComfyUI/models/clip_vision/ |
| نموذج الفيديو (نموذج الانتشار) | اختر من هذا الدليل table2_row4_col2_suffix | ComfyUI/models/diffusion_models/ |
توصية بنموذج الفيديو:
fp16 > bf16 > fp8_scaled > fp8_e4m3fn。يوفر ComfyUI مسارات عمل تستند إلى JSON. يمكنك العثور على ملفات JSON هذه في أمثلة ComfyUI الرسمية أو الوثائق. فيما يلي عروض GIF لبعض مسارات العمل:
يمكن استخدام سير العمل هذا مع نماذج 1.3B أو 14B. على سبيل المثال، استخدم:
wan2.1_t2v_1.3B_fp16.safetensors (ضعه في ComfyUI/models/diffusion_models/)الناتج: 480p / 720p (يعتمد على النموذج والإعدادات المحددة)
وقت التشغيل: يستغرق إنشاء فيديو بدقة 480 بكسل لمدة 5 ثوانٍ باستخدام RTX 4090 حوالي 4 دقائق.
مثال على سير العمل (1.3B 480p):
مثال على سير العمل (14B 720p):
ملف سير عمل JSON:text_to_video_wan.json
يتطلب سير العمل هذا الملفات التالية:
wan2.1_i2v_480p_14B_fp16.safetensors (ضعه في ComfyUI/models/diffusion_models/)wan2.1_i2v_720p_14B_fp16.safetensors (ضعه في ComfyUI/models/diffusion_models/)clip_vision_h.safetensors (ضعه في ComfyUI/models/clip_vision/)الناتج: 480p (مثال افتراضي: 33 إطارًا @ 512x512) أو 720p (إذا سمحت ذاكرة الفيديو (VRAM) والأجهزة).
مثال على سير العمل (14B 480p):
مثال على سير العمل (14B 720p):
ملف سير عمل JSON:image_to_video_wan_example.json
umt5_xxl_fp8_e4m3fn_scaled.safetensors)。umt5_xxl_fp8_e4m3fn_scaled.safetensors، تحتاج إلى حوالي 40 جيجابايت من ذاكرة الفيديو (VRAM).