알리바바 Wan2.1-VACE 오픈 소스 모델

혁신적인 AI 비디오 엔진: 하나의 모델로 비디오 생성, 편집, 재창조까지.

창의력 발휘: Wan2.1-VACE 핵심 기능

Wan2.1-VACE는 단순한 비디오 생성을 넘어, 만능 비디오 제작 파트너입니다. 단일 모델 아키텍처로 전례 없는 비디오 제어 능력을 제공합니다.

직접 "생성" 비디오

텍스트 설명이나 단일 이미지에서 새로운 비디오 콘텐츠를 만들어 상상력을 역동적인 시각 자료로 전환합니다.

복잡한 편집 및 재창조

기존 비디오에 스타일 변환, 객체 교체, 배경 확장 등 심층 편집을 수행하여 오래된 영상에 새로운 생명을 불어넣습니다.

단일 모델로 모든 범위 포괄

여러 도구를 전환할 필요 없이 Wan2.1-VACE는 통합 아키텍처를 통해 생성부터 편집까지 모든 비디오 처리 작업을 효율적으로 완료합니다.

정밀한 제어, 원하는 대로

Wan2.1-VACE는 비디오의 모든 프레임에 대한 세밀한 제어 기능을 제공하여 창의력을 제한하지 않습니다.

캐릭터 제어

동작, 자세, 방향, 모든 것을 제어합니다.

시각적 배열

구도 레이아웃, 움직임 궤적, 자유롭게 설정합니다.

스타일 정의

비디오 스타일, 전체적인 분위기, 원하는 대로 맞춤 설정합니다.

다양한 입력, 무한한 가능성 촉발

다양한 입력 방식을 지원하고 유연하게 조합하여 다양한 창작 요구를 충족합니다.

텍스트 (프롬프트)
이미지 (이미지 참조)
비디오 (원본 비디오 편집)
마스크 (수정 영역 지정)
제어 신호 (뎁스 맵, 광학 흐름 맵, 그레이스케일 맵, 레이아웃 맵, 라인 드로잉 등)

결합 혁신: 복잡한 응용 시나리오 잠금 해제

Wan2.1-VACE의 강점은 기능의 유연한 결합에 있으며, 복잡한 창작 요구에 쉽게 대응합니다.

세로 이미지를 가로 긴 비디오로 변환

"이미지 참조 + 배경 확장 + 길이 확장"을 결합하여 세로 이미지를 가로 긴 비디오로 쉽게 변환하고 조화로운 배경을 지능적으로 채웁니다.

정밀한 부분 재描画

"참조 이미지 + 부분 재描画"를 결합하여 비디오의 특정 객체만 교체하고 다른 요소는 완벽하게 보존하여 매끄러운 편집을 구현합니다.

자주 묻는 질문 (FAQ)

Wan2.1-VACE 모델에 대한 일반적인 질문과 답변을 여기에서 찾아보세요.

Wan2.1-VACE란 무엇인가요?

Wan2.1-VACE는 알리바바 Wan-AI 연구소에서 개발한 오픈 소스 멀티모달 비디오 생성 및 편집 기초 모델입니다. 통합 아키텍처를 채택하여 텍스트-비디오(T2V), 이미지-비디오(I2V), 비디오-비디오(V2V) 편집, 참조 이미지 기반 생성(R2V), 마스크 비디오 편집(MV2V) 등 다양한 복잡한 작업을 지원합니다.

"All in One, Wan for All"은 무슨 뜻인가요?

이는 Wan2.1-VACE의 핵심 설계 철학입니다. "All in One"은 단일 모델 아키텍처가 여러 도구를 전환할 필요 없이 다양한 비디오 제작 및 편집 작업을 처리할 수 있음을 의미합니다. "Wan for All"은 오픈 소스 및 소비자급 하드웨어 지원을 통해 더 많은 사용자가 고급 AI 비디오 기술에 접근하고 사용할 수 있도록 하는 포괄성을 강조합니다.

Wan2.1-VACE의 주요 기능은 무엇인가요?

주요 기능은 다음과 같습니다.

- 텍스트-비디오(T2V) 생성
- 이미지-비디오(I2V) 생성
- 첫 프레임-마지막 프레임-비디오(FLF2V) 생성
- 참조 이미지 기반 비디오 생성(R2V)
- 비디오-비디오(V2V) 편집 (예: 스타일 변환, 내용 조정)
- 마스크 기반 비디오 편집(MV2V) (예: 복원, 객체 교체, 장면 확장)
- 중영 이중 언어 시각적 텍스트 생성 (비디오 화면에 텍스트 렌더링)
- 복잡한 편집 워크플로를 위한 작업 조합성

Wan2.1-VACE에는 어떤 다른 버전이 있나요? 주요 차이점은 무엇인가요?

주로 Wan2.1-VACE-1.3B와 Wan2.1-VACE-14B 두 가지 버전이 있습니다.

Wan2.1-VACE-1.3B: 약 13억 개의 매개변수를 가진 경량 버전입니다. 주로 480p 해상도 비디오를 지원하며 소비자급 GPU에 친화적입니다(예: T2V 추론에는 약 8.19GB VRAM 필요). 개인 창작자 및 빠른 프로토타이핑에 적합합니다.

Wan2.1-VACE-14B: 약 140억 개의 매개변수를 가진 더 큰 규모의 버전입니다. 480p 및 더 높은 품질의 720p 해상도 비디오를 지원합니다. 성능이 더 강력하지만 하드웨어 요구 사항도 더 높습니다(예: I2V 추론에는 약 35GB VRAM 필요). 전문 비디오 제작 및 고품질 콘텐츠 생성에 적합합니다.

Wan2.1-VACE는 오픈 소스인가요? 어디에서 찾을 수 있나요?

예, Wan2.1-VACE는 Apache 2.0 오픈 소스 라이선스를 따릅니다.

다음 주요 채널에서 모델과 코드를 얻을 수 있습니다.

- - Hugging Face: Wan-AI 조직 페이지 and ali-vilab 페이지
- - GitHub: Wan-Video/Wan2.1 코드 저장소
- - ModelScope: 알리바바의 오픈 소스 모델 커뮤니티

Wan2.1-VACE를 로컬에 배포하기 위한 시스템 요구 사항은 무엇인가요?

기본 요구 사항은 다음과 같습니다.

- 운영 체제: Windows, macOS 또는 Linux.
- 메모리(RAM): 최소 16GB를 권장하며, 복잡한 작업이나 대규모 모델의 경우 더 많이 필요할 수 있습니다.
- GPU: 이것이 중요합니다. VRAM 요구 사항은 모델 버전에 따라 다르며, 1.3B 버전 T2V는 약 8.19GB 이상, 14B 버전은 더 많은 VRAM이 필요합니다. NVIDIA GPU 사용을 권장합니다.
- 소프트웨어: Python(예: 3.10 이상), CUDA, PyTorch. 특정 버전은 공식 문서 또는 커뮤니티 가이드를 참조하십시오.

자세한 설정 단계에는 일반적으로 리포지토리 복제, 종속성 설치 및 모델 가중치 다운로드가 포함됩니다.

Wan2.1-VACE는 어떤 시나리오에 적용될 수 있나요?

적용 전망은 광범위하며 다음을 포함합니다.

- 콘텐츠 제작 및 마케팅: 소셜 미디어 단편, 광고, 제품 데모, 교육 자료.
- 예술 시각화 및 엔터테인먼트: 동적 시각 예술, 실험 단편 영화, 애니메이션 컨셉.
- 게임 개발: 컷신, 캐릭터 액션 미리보기, 동적 배경.
- 영화 및 TV 사전 제작: 비디오 컨셉 프로토타입, 스토리보드 동적화.
- 개인화 콘텐츠 맞춤 제작: 맞춤형 축하 비디오, 교육용 세그먼트 등.