초기의 흐릿하고 일관성 없는 클립에서 확산 모델과 트랜스포머로 구동되어 물리적 세계를 시뮬레이션할 수 있는 놀라운 도약까지의 여정을 추적합니다.
2014 - 2018
초기 시도는 순환 신경망(RNN)을 사용하여 프레임별로 픽셀을 예측하며, "추측"처럼 후속 프레임을 생성했습니다. 이 방법은 장기 의존성으로 인한 오차 누적으로 인해 생성된 비디오가 빠르게 흐려지고 왜곡되었습니다.
프레임 T
(실제)
프레임 T+1
(예측)
프레임 T+1
(예측)
프레임 T+2
(흐림)
핵심 도전: 오차 누적으로 인한 화면의 빠른 열화.
2018 - 2022
GAN(생성적 적대 신경망)은 "생성기"와 "판별기"의 경쟁을 통해 화질을 향상시켰지만 시간적 일관성을 보장하기 어려웠습니다. VAE(변분 자동 인코더)는 데이터의 잠재 표현을 학습했지만 생성 결과에는 종종 흐림과 모드 붕괴 문제가 수반되었습니다.
← 생성기 최적화
판별기 최적화 →
핵심 도전: GAN 훈련 불안정성과 비디오의 시간적 일관성 부족.
2022 - 2023
계산 비용 문제를 해결하기 위해 잠재 확산 모델(LDM)이 탄생했습니다. VAE를 교묘하게 활용하여 비디오를 저차원 잠재 공간으로 압축하고, 이 공간에서 확산 모델을 통한 효율적인 노이즈 제거 생성을 수행한 후, 마지막에 VAE로 픽셀 공간으로 디코딩합니다. 이 아키텍처는 효율성과 실용성을 크게 향상시켰습니다.
의의: 계산 효율성과 생성 품질의 완벽한 결합 실현.
2024년 초
Sora로 대표되는 이 아키텍처는 확산 모델의 백본으로 U-Net을 Transformer로 대체했습니다. 비디오를 시공간 패치(Spatio-temporal Patches)로 분해함으로써 Transformer의 자기 주의 메커니즘이 장거리 시공간 의존성을 포착하여 시간적 일관성 문제를 근본적으로 해결했습니다.
2. 잠재 공간을 시공간 패치 시퀀스로 분해
↓3. 언어처럼 패치 시퀀스 처리
의의: 비디오 생성을 "시각 언어"의 시퀀스 모델링으로 취급하여 질적 도약 실현.
2024 - 현재
기술 경쟁이 새로운 차원에 진입하여, 모델들은 더 긴 생성 시간을 추구할 뿐만 아니라 오디오-비디오 동기화 생성을 실현하여 콘텐츠를 더욱 몰입감 있게 만들기 시작했습니다. Google Veo 3 등의 모델은 네이티브 오디오 생성 기능 통합을 시작하여 완전하고 몰입감 있는 다중 모달 콘텐츠 생성으로의 진보를 나타냅니다.
트렌드: 단일 모달 생성에서 시각, 청각 등 다감각 콘텐츠의 협력 창작으로.
확산 트랜스포머(DiT) 아키텍처를 채택하여 "세계 시뮬레이터"를 목표로 하며, 물리적 사실감, 장기간 일관성, 다중 모달 능력에서 업계 새로운 기준을 설정했습니다.
확산 트랜스포머핵심은 시공간 U-Net(STUNet) 아키텍처로, 전체 시공간 볼륨을 한 번에 생성하여 궁극적인 부드러움과 글로벌 모션 일관성을 추구하며, Gemini와 깊이 통합되어 강력한 의미 제어를 실현합니다.
시공간 U-Net업계 선구자로서, 그 진화는 "비디오 변환"에서 "직접 창조"로의 트렌드를 체현합니다. Gen-3는 정밀한 카메라 제어, 모션 제어, 사진급 사실적 인간 생성에 중점을 둡니다.
다중 모달 생성사용자 친화적인 인터페이스와 빠른 생성으로 유명하며, AI 비디오의 보급을 크게 촉진했습니다. 모델은 효율성, 프롬프트 준수도, 창의적 효과에서 뛰어난 성능을 발휘합니다.
고효율 및 사용자 친화적확산 트랜스포머 아키텍처를 채택하고 3D 시공간 주의 메커니즘을 융합하여 다양한 접근법의 장점을 집약하고 실제 세계의 물리 법칙과 운동 법칙을 정확하게 시뮬레이션하는 것을 목표로 합니다.
하이브리드 아키텍처고품질 생성 효과와 독특한 자연어 편집 기능에 중점을 두어 사용자가 지시를 통해 생성된 비디오 콘텐츠를 직접 수정할 수 있게 하여 제어성을 향상시킵니다.
자연어 편집포괄적이고 개방적인 비디오 기반 모델 스위트입니다. 가장 큰 특징은 소비자급 GPU에서 실행할 수 있고, 비디오에서 중영 이중 언어 텍스트 생성을 선구적으로 실현하여 실용성을 크게 향상시킨 것입니다.
오픈소스 기여