初期のぼやけた不連続な映像から、拡散モデルとトランスフォーマーによって駆動され、物理世界をシミュレートできる驚異的な飛躍までの軌跡を辿ります。
2014 - 2018
初期の試みでは、リカレントニューラルネットワーク(RNN)を使用してピクセルをフレームごとに予測し、「推測」のように後続のフレームを生成していました。この手法は長期依存による誤差蓄積により、生成される動画が急速にぼやけて歪んでしまいました。
フレーム T
(実際)
フレーム T+1
(予測)
フレーム T+1
(予測)
フレーム T+2
(ぼやけ)
核心課題:誤差蓄積による画面の急速な劣化。
2018 - 2022
GAN(敵対的生成ネットワーク)は「生成器」と「判別器」の競争により画質を向上させましたが、時間的一貫性の保証が困難でした。VAE(変分オートエンコーダー)はデータの潜在表現を学習しましたが、生成結果にはしばしばぼやけやモード崩壊の問題が伴いました。
← 生成器最適化
判別器最適化 →
核心課題:GAN訓練の不安定性と動画の時間的連続性の欠如。
2022 - 2023
計算コストの問題を解決するため、潜在拡散モデル(LDM)が誕生しました。VAEを巧妙に利用して動画を低次元潜在空間に圧縮し、この空間で拡散モデルによる効率的なノイズ除去生成を行い、最後にVAEでピクセル空間にデコードします。このアーキテクチャは効率性と実用性を大幅に向上させました。
意義:計算効率と生成品質の完璧な組み合わせを実現。
2024年初頭
Soraに代表されるこのアーキテクチャは、拡散モデルのバックボーンとしてU-NetをTransformerに置き換えました。動画を時空間パッチ(Spatio-temporal Patches)に分解することで、Transformerの自己注意機構が長距離時空間依存を捉え、時間的連続性の問題を根本的に解決しました。
2. 潜在空間を時空間パッチシーケンスに分解
↓3. 言語処理のようにパッチシーケンスを処理
意義:動画生成を「視覚言語」のシーケンスモデリングとして扱い、質的飛躍を実現。
2024 - 現在
技術競争は新たな次元に入り、モデルはより長い生成時間を追求するだけでなく、音声と映像の同期生成を実現し、コンテンツをより没入感のあるものにしています。Google Veo 3などのモデルはネイティブ音声生成機能の統合を開始し、完全で没入感のあるマルチモーダルコンテンツ生成への進歩を示しています。
トレンド:単一モーダル生成から、視覚、聴覚などの多感覚コンテンツの協調創作へ。
拡散トランスフォーマー(DiT)アーキテクチャを採用し、「世界シミュレーター」を目標として、物理的リアリズム、長期間の一貫性、マルチモーダル能力において業界の新基準を設定しています。
拡散トランスフォーマーコアは時空間U-Net(STUNet)アーキテクチャで、時空間ボリューム全体を一度に生成し、究極の滑らかさとグローバルな動きの一貫性を追求し、Geminiと深く統合して強力な意味制御を実現しています。
時空間U-Net業界のパイオニアとして、その進化は「動画変換」から「直接創造」への傾向を体現しています。Gen-3は精密なカメラ制御、動作制御、写真レベルのリアルな人間生成に焦点を当てています。
マルチモーダル生成ユーザーフレンドリーなインターフェースと高速生成で知られ、AI動画の普及を大きく推進しました。モデルは効率性、プロンプト遵守度、創造的効果において優れた性能を発揮します。
高効率・使いやすさ拡散トランスフォーマーアーキテクチャを採用し、3D時空間注意機構を融合させ、様々なアプローチの長所を集約して、現実世界の物理法則と運動法則を正確にシミュレートすることを目指しています。
ハイブリッドアーキテクチャ高品質な生成効果と独特な自然言語編集機能に焦点を当て、ユーザーが指示を通じて生成された動画コンテンツを直接修正できるようにし、制御性を向上させています。
自然言語編集包括的でオープンな動画基盤モデルスイート。その最大の特徴は、コンシューマーグレードのGPUで実行でき、動画内での中英バイリンガルテキスト生成を先駆けて実現し、実用性を大幅に向上させたことです。
オープンソース貢献