Wan2.1은 Alibaba의 강력한 오픈 소스 비디오 생성 모델 시리즈입니다.
이 시리즈에는 다음이 포함됩니다.
모델 유형 | 해상도 | VRAM(약) |
---|---|---|
텍스트-비디오 14B (T2V) | 480P / 720P | ~40GB |
텍스트-비디오 1.3B (T2V) | 480P | ~8–15GB |
이미지-비디오 14B (I2V) | 480P / 720P | ~40GB |
시각적 텍스트 생성 | 다국어 (중국어/영어) | 가변 |
파일 설명 | 파일 이름 (클릭하여 다운로드) | 대상 폴더 |
---|---|---|
텍스트 인코더 | umt5_xxl_fp8_e4m3fn_scaled.safetensors | ComfyUI/models/text_encoders/ |
VAE | wan_2.1_vae.safetensors | ComfyUI/models/vae/ |
CLIP Vision (이미지-비디오용) | clip_vision_h.safetensors | ComfyUI/models/clip_vision/ |
비디오 모델 (확산 모델) | 다음에서 선택: 이 디렉토리 table2_row4_col2_suffix | ComfyUI/models/diffusion_models/ |
비디오 모델 권장 사항:
fp16
> bf16
> fp8_scaled
> fp8_e4m3fn
。ComfyUI는 JSON 기반 워크플로를 제공합니다. 이러한 JSON 파일은 공식 ComfyUI 예제 또는 설명서에서 찾을 수 있습니다. 다음은 일부 워크플로의 GIF 데모입니다.
이 워크플로는 1.3B 또는 14B 모델과 함께 사용할 수 있습니다. 예를 들어 다음을 사용합니다.
wan2.1_t2v_1.3B_fp16.safetensors
(ComfyUI/models/diffusion_models/
에 배치)출력: 480p / 720p (선택한 모델 및 설정에 따라 다름)
실행 시간: RTX 4090으로 5초 480p 비디오를 생성하는 데 약 4분이 걸립니다.
워크플로 예제 (1.3B 480p):
워크플로 예제 (14B 720p):
JSON 워크플로 파일:text_to_video_wan.json
이 워크플로에는 다음 파일이 필요합니다.
wan2.1_i2v_480p_14B_fp16.safetensors
(ComfyUI/models/diffusion_models/
에 배치)wan2.1_i2v_720p_14B_fp16.safetensors
(ComfyUI/models/diffusion_models/
에 배치)clip_vision_h.safetensors
(ComfyUI/models/clip_vision/
에 배치)출력: 480p (기본 예: 33프레임 @ 512x512) 또는 720p (VRAM 및 하드웨어가 허용하는 경우).
워크플로 예제 (14B 480p):
워크플로 예제 (14B 720p):
JSON 워크플로 파일:image_to_video_wan_example.json
umt5_xxl_fp8_e4m3fn_scaled.safetensors
)。umt5_xxl_fp8_e4m3fn_scaled.safetensors
를 사용하여 480p/720p 이미지-비디오 모델(예: 14B I2V)을 실행하려면 약 40GB의 VRAM이 필요합니다.