Tongyi Wanxiang AI 비디오 생성

Wan 2.5 Preview

다감각 스토리텔링의 혁명. 네이티브 오디오와 영화 수준의 시각적 제어를 통합하여 AI 비디오 제작의 경계를 재정의합니다.

기능의 세대적 도약

Wan 2.5는 이전 모델의 정수를 통합하면서 핵심 차원에서 질적인 돌파구를 마련했습니다.

오디오-비디오 동기화 처리 최초 구현으로, 네이티브 내레이션, 정확한 립싱크 및 몰입형 환경 음향 효과를 제공합니다.

최대 4K 해상도 출력을 지원하여 전문 제작 기준을 충족하는 사실적인 얼굴, 피부 질감 및 의상 디테일을 제공합니다.

팬, 줌, 초점 전환 등 고급 카메라 제어 기능을 제공하여 제작자가 장면을 '설명'하는 것을 넘어 '감독'할 수 있도록 합니다.

최대 10초 이상의 비디오 클립 생성을 지원하여 완전한 서사 리듬이나 짧은 광고를 구성하기에 충분합니다.

Wan 2.5는 거인의 어깨 위에 서 있으며, 기술적 반복과 전략적 진화의 필연적인 결과를 나타냅니다.

오픈 소스 기반

커뮤니티 리더십을 확립하고 고성능 비디오 생성을 대중화했습니다.

MoE 아키텍처 혁명

전문가 혼합 아키텍처를 도입하여 확장 가능한 모델 성능을 달성했습니다.

기능 통합

오디오, 애니메이션 및 고급 제어를 통합 모델에 통합합니다.

상용 API

고급 전문 시장으로 전환하여 비공개 소스 API 서비스를 제공합니다.

Wan 2.5의 출시는 생성 비디오 시장이 3계층 구조의 새로운 시대로 진입했음을 의미합니다.

1계층: 고급 비공개 소스

최고 연구소(OpenAI, Google, Alibaba)가 API 액세스를 통해 제공하는 주력 모델로, 최고의 품질과 가장 강력한 제어를 추구합니다.

대표: Sora, Veo, Wan 2.5

2계층: 레거시 오픈 소스

고품질이지만 한 세대 뒤처진 오픈 소스 모델로, 커뮤니티 실험, 학습 및 비상업적 프로젝트의 핵심 역할을 합니다.

대표: Wan 2.2, Stable Video Diffusion

3계층: 독립 오픈 소스

커뮤니티 주도의 소규모 또는 특화된 모델로, 고유한 기능을 제공하거나 특정 하드웨어에 최적화되어 생태계 다양성의 원천이 됩니다.

대표: Community Models

아래 표는 핵심 아키텍처, 주요 혁신 및 출시 모델을 비교하여 Wan 모델 시리즈가 개방형 접근성에서 전문 상용화로 가는 완전한 진화 경로를 직관적으로 보여줍니다.

핵심 아키텍처	Wan 2.1	Wan 2.2	Wan 2.5 Preview (발표/추측)
핵심 아키텍처	표준 Diffusion Transformer	전문가 혼합(MoE) (고/저 노이즈)	진화된 MoE 아키텍처
모델 규모	1.3B 및 14B 파라미터	14B 활성 / 27B 총 파라미터	아마도 >30B 총 파라미터
주요 혁신	오픈 소스 접근성 및 효율성	MoE가 확장 가능한 성능 달성	통합 멀티모달(오디오-비디오)
최대 해상도	720p(불안정), 480p(권장)	720p / 1080p	4K(주장), 1080p(API 확인)
최대 지속 시간	~3-5초	~5초	10초 이상
핵심 양식	T2V, I2V, 비디오 편집	T2V, I2V 및 전용 S2V 및 Animate 모델	통합 T2V, I2V, 오디오-비디오 동기화, 고급 애니메이션
영화적 제어	기본	"영화적 미학 제어"	정밀한 카메라, 조명 및 장면 제어
출시 모델	오픈 소스 (Apache 2.0)	오픈 소스 (Apache 2.0)	API 전용 (비공개 소스)