ComfyUI अब Wan2.1 का समर्थन करता है

🧠 Wan2.1 क्या है?

Wan2.1 अलीबाबा के शक्तिशाली ओपन-सोर्स वीडियो जनरेशन मॉडल की एक श्रृंखला है।

श्रृंखला में शामिल हैं:

मॉडल प्रकाररिज़ॉल्यूशनVRAM (लगभग)
टेक्स्ट-टू-वीडियो 14B (T2V)480P / 720P~40GB
टेक्स्ट-टू-वीडियो 1.3B (T2V)480P~8–15GB
इमेज-टू-वीडियो 14B (I2V)480P / 720P~40GB
विज़ुअल टेक्स्ट जनरेशनबहुभाषी (चीनी/अंग्रेजी)चर

🔧 मुख्य विशेषताएं

  • उपभोक्ता-ग्रेड अनुकूल:T2V 1.3B मॉडल लगभग 8.19 GB VRAM वाले GPU पर चल सकता है।
  • मल्टी-टास्क समर्थन:T2V (टेक्स्ट-टू-वीडियो), I2V (इमेज-टू-वीडियो), V2V (वीडियो-टू-वीडियो), T2I (टेक्स्ट-टू-इमेज), V2A (वीडियो-टू-ऑडियो) का समर्थन करता है।
  • उच्च दक्षता:शक्तिशाली Wan-VAE अस्थायी स्थिरता के साथ 1080p वीडियो संसाधित कर सकता है।
  • भाषा समर्थन:चीनी और अंग्रेजी दोनों में टेक्स्ट उत्पन्न करने वाला पहला मॉडल।

📂 सेटअप गाइड

  1. ComfyUI को नवीनतम संस्करण में अपडेट करें।
  2. आवश्यक फ़ाइलें डाउनलोड करें और उन्हें निर्दिष्ट ComfyUI उपनिर्देशिकाओं में रखें:
फ़ाइल विवरणफ़ाइल नाम (डाउनलोड करने के लिए क्लिक करें)लक्ष्य फ़ोल्डर
टेक्स्ट एन्कोडरumt5_xxl_fp8_e4m3fn_scaled.safetensorsComfyUI/models/text_encoders/
VAEwan_2.1_vae.safetensorsComfyUI/models/vae/
CLIP विजन (इमेज-टू-वीडियो के लिए)clip_vision_h.safetensorsComfyUI/models/clip_vision/
वीडियो मॉडल (डिफ्यूजन मॉडल)से चुनें यह निर्देशिका table2_row4_col2_suffixComfyUI/models/diffusion_models/

वीडियो मॉडल अनुशंसा:

  • सर्वोत्तम गुणवत्ता के लिए, fp16 संस्करण की अनुशंसा की जाती है।
  • गुणवत्ता रैंकिंग (उच्च से निम्न):fp16 > bf16 > fp8_scaled > fp8_e4m3fn
  • यदि VRAM अपर्याप्त है, तो fp8 संस्करण का उपयोग करने पर विचार करें।

📜 उदाहरण वर्कफ़्लो

ComfyUI JSON-आधारित वर्कफ़्लो प्रदान करता है। आप इन JSON फ़ाइलों को आधिकारिक ComfyUI उदाहरणों या दस्तावेज़ीकरण में पा सकते हैं। यहाँ कुछ वर्कफ़्लो के GIF प्रदर्शन दिए गए हैं:

टेक्स्ट से वीडियो (Text to Video)

इस वर्कफ़्लो का उपयोग 1.3B या 14B मॉडल के साथ किया जा सकता है। उदाहरण के लिए, उपयोग करें:

आउटपुट: 480p / 720p (चयनित मॉडल और सेटिंग्स पर निर्भर करता है)

रनटाइम: RTX 4090 के साथ 5-सेकंड का 480p वीडियो बनाने में लगभग 4 मिनट लगते हैं।

वर्कफ़्लो उदाहरण (1.3B 480p):

Text to Video 1.3B 480P Workflow Example

वर्कफ़्लो उदाहरण (14B 720p):

Text to Video 14B 720P Workflow Example

JSON वर्कफ़्लो फ़ाइल:text_to_video_wan.json

इमेज से वीडियो (Image to Video)

इस वर्कफ़्लो के लिए निम्नलिखित फ़ाइलों की आवश्यकता है:

आउटपुट: 480p (डिफ़ॉल्ट उदाहरण: 33 फ्रेम @ 512x512) या 720p (यदि VRAM और हार्डवेयर अनुमति देते हैं)।

वर्कफ़्लो उदाहरण (14B 480p):

Image to Video 14B 480P Workflow Example

वर्कफ़्लो उदाहरण (14B 720p):

Image to Video 14B 720P Workflow Example

JSON वर्कफ़्लो फ़ाइल:image_to_video_wan_example.json

📝 टिप्पणियाँ

  • टेक्स्ट एन्कोडर:आवश्यक (umt5_xxl_fp8_e4m3fn_scaled.safetensors)。
  • VRAM आवश्यकता:umt5_xxl_fp8_e4m3fn_scaled.safetensors के साथ 480p/720p इमेज-टू-वीडियो मॉडल (जैसे, 14B I2V) चलाने के लिए, आपको लगभग 40GB VRAM की आवश्यकता है।
  • 1.3B T2V मॉडल VRAM:1.3B टेक्स्ट-टू-वीडियो मॉडल को लगभग 15GB VRAM की आवश्यकता होती है।
  • VRAM सहेजना:उदाहरण आमतौर पर 16-बिट (fp16) फ़ाइलों का उपयोग करते हैं, लेकिन यदि आपके पास VRAM कम है, तो आप इसके बजाय fp8 संस्करणों का उपयोग कर सकते हैं।
  • 720p मॉडल:720p मॉडल अच्छी तरह से काम करते हैं लेकिन उन्हें चलाने के लिए उच्च हार्डवेयर विनिर्देशों और धैर्य की आवश्यकता होती है।