追溯從早期模糊、不連貫的片段,到由擴散模型與變換器驅動、能夠模擬物理世界的驚艷飛躍。
2014 - 2018
最初的嘗試使用循環神經網路(RNN)逐幀預測像素,如同「猜謎」一般生成後續畫面。這種方法因長期依賴導致誤差累積,生成的影片會快速變得模糊和失真。
幀 T
(真實)
幀 T+1
(預測)
幀 T+1
(預測)
幀 T+2
(模糊)
核心挑戰:誤差累積導致畫面快速失真。
2018 - 2022
GAN(生成對抗網路)透過「生成器」與「判別器」的博弈提升畫質,但難以保證時間一致性。VAE(變分自編碼器)學習資料的潛在表示,但生成結果常伴有模糊和模式崩潰問題。
← 最佳化生成器
最佳化判別器 →
核心挑戰:GAN訓練不穩定且影片缺乏時間連貫性。
2022 - 2023
為解決計算成本問題,潛在擴散模型(LDM)誕生。它巧妙地利用VAE將影片壓縮到低維潛在空間,再由擴散模型在此空間中進行高效的去噪生成,最後由VAE解碼回像素空間。這一架構極大提升了效率和實用性。
意義:實現了計算效率和生成品質的完美結合。
2024年初
以Sora為代表,該架構用Transformer取代了U-Net作為擴散模型的骨幹。透過將影片解構為時空補丁(Spatio-temporal Patches),Transformer的自注意力機制能捕捉長距離時空依賴,從根本上解決了時間連貫性難題。
2. 潛在空間被解構為時空補丁序列
↓3. 像處理語言一樣處理補丁序列
意義:將影片生成視為「視覺語言」的序列建模,實現質的飛躍。
2024 - 至今
技術競爭進入新維度,模型不僅追求更長的生成時間,更開始實現音視頻同步生成,使內容更具沉浸感。Google Veo 3等模型開始整合原生音訊生成能力,標誌著向完整、沉浸的多模態內容生成邁進。
趨勢:從單一模態生成,走向視、聽等多感官內容的協同創作。
採用擴散變換器(DiT)架構,以「世界模擬器」為目標,在物理真實感、長時程連貫性和多模態能力上設立了行業新標杆。
擴散變換器核心為時空U-Net(STUNet)架構,一次性生成整個時空體,追求極致平滑和全域一致的運動,並深度整合Gemini,實現強大語義控制。
時空U-Net作為行業先驅,其演進體現了從「影片轉換」到「直接創造」的趨勢。Gen-3專注於精細的鏡頭、動作控制和照片級真實感人類生成。
多模態生成以使用者友善的介面和快速生成著稱,極大推動了AI影片的普及。模型在效率、提示詞遵循度和創意效果上表現出色。
高效易用採用擴散變換器架構,並融合3D時空注意力機制,集眾家之所長,旨在精確模擬真實世界的物理和運動規律。
融合架構專注於高品質的生成效果和獨特的自然語言編輯能力,允許使用者透過指令直接修改已生成的影片內容,提升了可控性。
自然語言編輯一個全面且開放的影片基礎模型套件。其一大亮點是可在消費級GPU上運行,並率先實現了在影片中生成中英雙語文字的能力,極大增強了實用性。
開源貢獻