Wan2.1 هي سلسلة قوية من نماذج توليد الفيديو مفتوحة المصدر من Alibaba.
تتضمن السلسلة:
نوع النموذج | الدقة | ذاكرة الفيديو (تقريبًا) |
---|---|---|
تحويل النص إلى فيديو 14B (T2V) | 480P / 720P | ~40GB |
تحويل النص إلى فيديو 1.3B (T2V) | 480P | ~8–15GB |
تحويل الصورة إلى فيديو 14B (I2V) | 480P / 720P | ~40GB |
توليد النصوص المرئية | متعدد اللغات (الصينية/الإنجليزية) | متغير |
وصف الملف | اسم الملف (انقر للتنزيل) | المجلد الهدف |
---|---|---|
مشفّر النصوص | umt5_xxl_fp8_e4m3fn_scaled.safetensors | ComfyUI/models/text_encoders/ |
VAE | wan_2.1_vae.safetensors | ComfyUI/models/vae/ |
CLIP Vision (لتحويل الصورة إلى فيديو) | clip_vision_h.safetensors | ComfyUI/models/clip_vision/ |
نموذج الفيديو (نموذج الانتشار) | اختر من هذا الدليل table2_row4_col2_suffix | ComfyUI/models/diffusion_models/ |
توصية بنموذج الفيديو:
fp16
> bf16
> fp8_scaled
> fp8_e4m3fn
。يوفر ComfyUI مسارات عمل تستند إلى JSON. يمكنك العثور على ملفات JSON هذه في أمثلة ComfyUI الرسمية أو الوثائق. فيما يلي عروض GIF لبعض مسارات العمل:
يمكن استخدام سير العمل هذا مع نماذج 1.3B أو 14B. على سبيل المثال، استخدم:
wan2.1_t2v_1.3B_fp16.safetensors
(ضعه في ComfyUI/models/diffusion_models/
)الناتج: 480p / 720p (يعتمد على النموذج والإعدادات المحددة)
وقت التشغيل: يستغرق إنشاء فيديو بدقة 480 بكسل لمدة 5 ثوانٍ باستخدام RTX 4090 حوالي 4 دقائق.
مثال على سير العمل (1.3B 480p):
مثال على سير العمل (14B 720p):
ملف سير عمل JSON:text_to_video_wan.json
يتطلب سير العمل هذا الملفات التالية:
wan2.1_i2v_480p_14B_fp16.safetensors
(ضعه في ComfyUI/models/diffusion_models/
)wan2.1_i2v_720p_14B_fp16.safetensors
(ضعه في ComfyUI/models/diffusion_models/
)clip_vision_h.safetensors
(ضعه في ComfyUI/models/clip_vision/
)الناتج: 480p (مثال افتراضي: 33 إطارًا @ 512x512) أو 720p (إذا سمحت ذاكرة الفيديو (VRAM) والأجهزة).
مثال على سير العمل (14B 480p):
مثال على سير العمل (14B 720p):
ملف سير عمل JSON:image_to_video_wan_example.json
umt5_xxl_fp8_e4m3fn_scaled.safetensors
)。umt5_xxl_fp8_e4m3fn_scaled.safetensors
، تحتاج إلى حوالي 40 جيجابايت من ذاكرة الفيديو (VRAM).