VBench와 같은 권위 있는 벤치마크에서 뛰어난 성능(종합 점수 84.7%+)을 보이며, 특히 복잡한 동역학, 공간 관계 및 다중 객체 상호 작용 처리에 능숙합니다.
경량 1.3B 모델은 약 8GB의 VRAM만 필요하며 주류 소비자용 GPU에서 원활하게 실행되어 진입 장벽을 크게 낮춥니다.
T2V/I2V에 국한되지 않고 비디오 편집, 복원, 확장 및 오디오 생성(V2A)과 같은 다양한 창의적 요구 사항도 지원합니다.
비디오 내 이중 언어(중국어/영어) 텍스트의 선명한 생성을 개척하고 다양한 글꼴 효과를 지원하여 응용 범위를 크게 확장합니다.
새로운 3D 시공간 VAE는 인코딩/디코딩 효율성과 품질을 크게 향상시키고 고해상도 장편 비디오 처리를 지원하며 속도와 VRAM의 균형을 맞춥니다.
Apache 2.0 라이선스를 따르고 모델 코드와 가중치를 완전히 공개하며 커뮤니티를 적극적으로 수용하여 기술 및 응용 프로그램 배포를 공동으로 발전시킵니다.
큰 신체 움직임, 물체 회전, 장면 변화 및 카메라 움직임을 포함하는 사실적인 비디오 스트림을 정확하게 생성합니다.
예: 눈 덮인 풍경에서 스노모빌러가 속도를 내고 눈을 흩날리는 역동적인 장면을 시뮬레이션합니다.
실제 물리 법칙을 정확하게 시뮬레이션하여 직관적인 물체 상호 작용 및 동적 효과를 생성합니다.
예: 팬더가 도시 거리에서 점프, 회전, 그라인드를 포함한 어려운 스케이트보드 트릭을 선보이며 부드럽고 자연스러운 움직임으로 절묘한 기술을 보여줍니다.
풍부한 질감, 사실적인 조명 및 다양한 스타일을 갖춘 비디오 프레임을 생성하여 영화에 필적하는 시각적 품질을 제공합니다.
예: 변신하는 스파이의 얼굴을 포착하는 클로즈업 영화 촬영.
Wan-Edit 기술을 기반으로 콘텐츠 미세 조정을 위한 다양한 비디오 편집 작업을 지원합니다.
예: 비디오의 주요 구조를 보존하면서 배경을 교체하거나 요소를 추가합니다.
비디오 프레임 내에서 선명하고 동적인 이중 언어(중국어/영어) 텍스트를 직접 생성하는 획기적인 지원. 다양한 글꼴 및 효과와 함께 적용 가능.
프롬프트 예시 (수묵화): "빨간 새해 종이 배경에 먹물 한 방울이 천천히 퍼져 흐릿하고 자연스러운 글자 "福"(복)을 형성하며 먹물 색이 어두운 색에서 옅은 색으로 변하여 동양 미학을 보여줍니다."
예: 제품 데모 비디오에 동적 슬로건 또는 주석 추가.
시각 자료를 생성할 뿐만 아니라 콘텐츠 및 리듬과 일치하는 음향 효과 및 배경 음악(V2A)을 지능적으로 매칭하거나 생성합니다.
프롬프트 예시 (얼음 떨어짐): "클로즈업 샷, 얼음 조각이 높이에서 유리잔으로 떨어지며 깨지는 소리와 액체가 출렁이는 소리를 냅니다..." (일치하는 음향 효과 생성)
예: 애니메이션 단편 영화의 줄거리와 분위기에 맞는 배경 음악 자동 생성.
Wan 2.1은 신속한 검증부터 고품질 제작까지 다양한 요구 사항을 충족하기 위해 다양한 매개변수 규모와 기능을 갖춘 모델 변형을 제공하며, 모두 Apache 2.0 라이선스에 따라 오픈 소스화되었습니다.
13억 매개변수
텍스트-비디오(T2V), 480p 해상도에 중점. 소비자용 GPU에 최적화되었으며 VRAM 요구 사항이 낮습니다(약 8GB).
140억 매개변수
텍스트-비디오(T2V), 뛰어난 품질 제공, 480p/720p 해상도 지원, 독특한 이중 언어 텍스트 생성 기능 보유.
140억 매개변수
이미지-비디오(I2V), 이미지 참조와 텍스트 프롬프트를 결합하여 비디오 생성, 480p 및 720p 고품질 변형 제공.
140억 매개변수
첫&마지막-프레임-비디오(FLF2V), 시작 및 끝 프레임 간의 전환을 지능적으로 합성하여 부드러운 비디오 생성, 다중 GPU 가속 지원.
🚀 알리바바 Tongyi Lab, 최초의 140억 매개변수 첫&마지막-프레임-비디오 대형 모델 출시! 완전 오픈 소스로 디지털 아티스트에게 전례 없는 창의적 효율성과 유연성 제공.
풍부한 디테일과 사실적인 물리학을 갖춘 영화 같은 고화질 비디오 콘텐츠 생성.
복잡한 물체 움직임, 카메라 움직임 및 자연스러운 동적 상호 작용을 정확하게 포착하고 생성.
독특한 비디오 내 이중 언어 텍스트 생성 기능은 콘텐츠 제작에 더 많은 가능성을 추가.
고급 Wan-VAE 기술은 더 빠른 처리 속도와 더 나은 리소스 활용 효율성 제공.
오픈 소스와 소비자 하드웨어 지원의 결합으로 누구나 최첨단 AI 비디오 기술 경험 가능.
전 세계 개발자들의 기여, 최적화 및 통합 혜택을 받아 지속적인 생태계 성장 촉진.
Wan 2.1은 주류 Diffusion Transformer(DiT) 패러다임을 기반으로 하며 효율적인 비디오 데이터 처리를 위해 혁신적인 3D 시공간 변이형 오토인코더(Wan-VAE)를 도입했습니다. 또한 Flow Matching 기술을 사용하고 T5 인코더를 통해 텍스트 프롬프트를 이해하며 교차 주의 메커니즘을 사용하여 텍스트 및 시각 정보를 통합합니다.
하드웨어 요구 사항은 모델 버전에 따라 다릅니다. 1.3B T2V 모델은 소비자 GPU에 매우 친화적이며 최소 약 8GB의 VRAM만 필요합니다. 14B 모델(T2V, I2V, FLF2V)은 더 강력한 하드웨어가 필요하며 24GB 이상의 VRAM을 갖춘 전문가급 GPU(예: A100, RTX 4090)를 권장하며 효율적인 추론을 위해 다중 GPU 설정이 필요할 수 있습니다.
Wan 2.1은 VBench와 같은 벤치마크에서 뛰어난 성능을 보이며 특정 메트릭(예: 모션 부드러움, 주체 일관성)에서 Sora와 같은 폐쇄 소스 모델보다 우수하거나 비슷하다고 간주되는 경우가 많습니다. 주요 장점은 오픈 소스, 소비자 하드웨어 지원(1.3B 모델) 및 독특한 이중 언어 텍스트 생성에 있습니다. Sora와 Veo 2는 폐쇄 소스일 가능성이 높으며 특정 미적 품질이나 더 긴 비디오 생성에 초점을 맞출 수 있지만 Wan 2.1은 더 큰 유연성과 효율성을 제공합니다.
Wan 2.1은 고품질 비디오를 생성할 수 있지만 모든 생성 모델과 마찬가지로 출력 품질에 약간의 불안정성이 있을 수 있으며 때때로 아티팩트, 왜곡 또는 세부 제어 불량(특히 복잡한 장면이나 특정 스타일, 예: 초상화)이 발생할 수 있습니다. 다른 제한 사항으로는 대규모 모델의 상대적으로 느린 생성 속도, 높은 하드웨어 요구 사항 및 오픈 소스 모델에 공통적인 콘텐츠 안전/윤리적 위험(예: 내장 워터마크 부족)이 있습니다.
공식 GitHub 저장소에서 소스 코드, 모델 가중치 및 자세한 사용 지침을 얻을 수 있습니다. 모델은 Hugging Face Hub, Diffusers, ComfyUI 등과 같은 인기 있는 플랫폼에도 통합되어 사용자가 직접 호출하거나 로컬에서 배포할 수 있습니다. 커뮤니티는 또한 많은 튜토리얼과 도구를 제공합니다.
Wan 2.1 코드 및 모델 가중치는 Apache 2.0 라이선스에 따라 오픈 소스화됩니다. 이는 사용자가 라이선스 조건(예: 저작권 고지 및 면책 조항 유지)을 준수하는 한 상업적 목적을 포함하여 자유롭게 사용, 수정 및 배포할 수 있음을 의미합니다.