ComfyUI, 이제 Wan2.1 지원

🧠 Wan2.1이란 무엇인가요?

Wan2.1은 Alibaba의 강력한 오픈 소스 비디오 생성 모델 시리즈입니다.

이 시리즈에는 다음이 포함됩니다.

모델 유형해상도VRAM(약)
텍스트-비디오 14B (T2V)480P / 720P~40GB
텍스트-비디오 1.3B (T2V)480P~8–15GB
이미지-비디오 14B (I2V)480P / 720P~40GB
시각적 텍스트 생성다국어 (중국어/영어)가변

🔧 주요 특징

  • 소비자 등급 친화적:T2V 1.3B 모델은 약 8.19GB의 VRAM이 있는 GPU에서 실행할 수 있습니다.
  • 멀티태스킹 지원:T2V(텍스트-비디오), I2V(이미지-비디오), V2V(비디오-비디오), T2I(텍스트-이미지), V2A(비디오-오디오)를 지원합니다.
  • 고효율:강력한 Wan-VAE는 시간적 일관성을 갖춘 1080p 비디오를 처리할 수 있습니다.
  • 언어 지원:중국어와 영어로 텍스트 생성을 지원하는 최초의 모델입니다.

📂 설정 가이드

  1. ComfyUI를 최신 버전으로 업데이트합니다.
  2. 필요한 파일을 다운로드하여 지정된 ComfyUI 하위 디렉토리에 배치합니다.
파일 설명파일 이름 (클릭하여 다운로드)대상 폴더
텍스트 인코더umt5_xxl_fp8_e4m3fn_scaled.safetensorsComfyUI/models/text_encoders/
VAEwan_2.1_vae.safetensorsComfyUI/models/vae/
CLIP Vision (이미지-비디오용)clip_vision_h.safetensorsComfyUI/models/clip_vision/
비디오 모델 (확산 모델)다음에서 선택: 이 디렉토리 table2_row4_col2_suffixComfyUI/models/diffusion_models/

비디오 모델 권장 사항:

  • 최상의 품질을 위해 fp16 버전을 권장합니다.
  • 품질 순위 (높음에서 낮음):fp16 > bf16 > fp8_scaled > fp8_e4m3fn
  • VRAM이 부족한 경우 fp8 버전을 사용하는 것이 좋습니다.

📜 예제 워크플로

ComfyUI는 JSON 기반 워크플로를 제공합니다. 이러한 JSON 파일은 공식 ComfyUI 예제 또는 설명서에서 찾을 수 있습니다. 다음은 일부 워크플로의 GIF 데모입니다.

텍스트를 비디오로 (Text to Video)

이 워크플로는 1.3B 또는 14B 모델과 함께 사용할 수 있습니다. 예를 들어 다음을 사용합니다.

출력: 480p / 720p (선택한 모델 및 설정에 따라 다름)

실행 시간: RTX 4090으로 5초 480p 비디오를 생성하는 데 약 4분이 걸립니다.

워크플로 예제 (1.3B 480p):

Text to Video 1.3B 480P Workflow Example

워크플로 예제 (14B 720p):

Text to Video 14B 720P Workflow Example

JSON 워크플로 파일:text_to_video_wan.json

이미지를 비디오로 (Image to Video)

이 워크플로에는 다음 파일이 필요합니다.

출력: 480p (기본 예: 33프레임 @ 512x512) 또는 720p (VRAM 및 하드웨어가 허용하는 경우).

워크플로 예제 (14B 480p):

Image to Video 14B 480P Workflow Example

워크플로 예제 (14B 720p):

Image to Video 14B 720P Workflow Example

JSON 워크플로 파일:image_to_video_wan_example.json

📝 참고

  • 텍스트 인코더:필수 (umt5_xxl_fp8_e4m3fn_scaled.safetensors)。
  • VRAM 요구 사항:umt5_xxl_fp8_e4m3fn_scaled.safetensors를 사용하여 480p/720p 이미지-비디오 모델(예: 14B I2V)을 실행하려면 약 40GB의 VRAM이 필요합니다.
  • 1.3B T2V 모델 VRAM:1.3B 텍스트-비디오 모델에는 약 15GB의 VRAM이 필요합니다.
  • VRAM 절약:예제에서는 일반적으로 16비트(fp16) 파일을 사용하지만 VRAM이 부족한 경우 fp8 버전을 대신 사용할 수 있습니다.
  • 720p 모델:720p 모델은 잘 작동하지만 더 높은 하드웨어 사양과 실행에 대한 인내심이 필요합니다.