追溯从早期模糊、不连贯的片段,到由扩散模型与变换器驱动、能够模拟物理世界的惊艳飞跃。
2014 - 2018
最初的尝试使用循环神经网络(RNN)逐帧预测像素,如同"猜谜"一般生成后续画面。这种方法因长期依赖导致误差累积,生成的视频会快速变得模糊和失真。
帧 T
(真实)
帧 T+1
(预测)
帧 T+1
(预测)
帧 T+2
(模糊)
核心挑战:误差累积导致画面快速失真。
2018 - 2022
GAN(生成对抗网络)通过"生成器"与"判别器"的博弈提升画质,但难以保证时间一致性。VAE(变分自编码器)学习数据的潜在表示,但生成结果常伴有模糊和模式崩溃问题。
← 优化生成器
优化判别器 →
核心挑战:GAN训练不稳定且视频缺乏时间连贯性。
2022 - 2023
为解决计算成本问题,潜在扩散模型(LDM)诞生。它巧妙地利用VAE将视频压缩到低维潜在空间,再由扩散模型在此空间中进行高效的去噪生成,最后由VAE解码回像素空间。这一架构极大提升了效率和实用性。
意义:实现了计算效率和生成质量的完美结合。
2024年初
以Sora为代表,该架构用Transformer取代了U-Net作为扩散模型的骨干。通过将视频解构为时空补丁(Spatio-temporal Patches),Transformer的自注意力机制能捕捉长距离时空依赖,从根本上解决了时间连贯性难题。
2. 潜在空间被解构为时空补丁序列
↓3. 像处理语言一样处理补丁序列
意义:将视频生成视为"视觉语言"的序列建模,实现质的飞跃。
2024 - 至今
技术竞争进入新维度,模型不仅追求更长的生成时间,更开始实现音视频同步生成,使内容更具沉浸感。Google Veo 3等模型开始集成原生音频生成能力,标志着向完整、沉浸的多模态内容生成迈进。
趋势:从单一模态生成,走向视、听等多感官内容的协同创作。
采用扩散变换器(DiT)架构,以"世界模拟器"为目标,在物理真实感、长时程连贯性和多模态能力上设立了行业新标杆。
扩散变换器核心为时空U-Net(STUNet)架构,一次性生成整个时空体,追求极致平滑和全局一致的运动,并深度集成Gemini,实现强大语义控制。
时空U-Net作为行业先驱,其演进体现了从"视频转换"到"直接创造"的趋势。Gen-3专注于精细的镜头、动作控制和照片级真实感人类生成。
多模态生成以用户友好的界面和快速生成著称,极大推动了AI视频的普及。模型在效率、提示词遵循度和创意效果上表现出色。
高效易用采用扩散变换器架构,并融合3D时空注意力机制,集众家之所长,旨在精确模拟真实世界的物理和运动规律。
融合架构专注于高质量的生成效果和独特的自然语言编辑能力,允许用户通过指令直接修改已生成的视频内容,提升了可控性。
自然语言编辑一个全面且开放的视频基础模型套件。其一大亮点是可在消费级GPU上运行,并率先实现了在视频中生成中英双语文字的能力,极大增强了实用性。
开源贡献