Retracer le voyage depuis les premiers clips flous et incohérents jusqu'aux bonds impressionnants alimentés par les modèles de diffusion et les transformers qui peuvent simuler le monde physique.
2014 - 2018
Les tentatives initiales utilisaient des Réseaux de Neurones Récurrents (RNN) pour prédire les pixels image par image, comme "deviner" les images suivantes. Cette approche souffrait d'accumulation d'erreurs due aux dépendances à long terme, causant une dégradation rapide des vidéos générées en flou et distorsion.
Image T
(Réel)
Image T+1
(Prédit)
Image T+1
(Prédit)
Image T+2
(Flou)
Défi Principal : L'accumulation d'erreurs mène à une dégradation rapide de l'image.
2018 - 2022
Les GANs (Réseaux Adverses Génératifs) amélioraient la qualité d'image par la compétition générateur-discriminateur mais peinaient avec la cohérence temporelle. Les VAEs (Auto-encodeurs Variationnels) apprenaient des représentations latentes de données mais produisaient souvent des résultats flous et un effondrement de mode.
← Optimiser Générateur
Optimiser Discriminateur →
Défi Principal : Instabilité d'entraînement GAN et manque de cohérence temporelle dans les vidéos.
2022 - 2023
Pour adresser les coûts computationnels, les Modèles de Diffusion Latente (LDM) émergèrent. Ils utilisent intelligemment VAE pour comprimer les vidéos dans un espace latent de faible dimension, effectuent une génération efficace de débruitage via des modèles de diffusion, puis décodent vers l'espace pixel par VAE. Cette architecture améliora grandement l'efficacité et la praticité.
Signification : Atteint un équilibre parfait entre efficacité computationnelle et qualité de génération.
Début 2024
Représenté par Sora, cette architecture remplaça U-Net par Transformer comme épine dorsale du modèle de diffusion. En déconstruisant les vidéos en patches spatio-temporels, le mécanisme d'auto-attention du Transformer capture les dépendances spatio-temporelles à long terme, résolvant fondamentalement les défis de cohérence temporelle.
2. Espace latent décomposé en séquences de patches spatio-temporels
↓3. Traiter les séquences de patches comme le langage
Signification : Traiter la génération vidéo comme modélisation de séquence de 'langage visuel', réalisant des percées qualitatives.
2024 - Présent
La compétition technologique entre dans de nouvelles dimensions. Les modèles ne poursuivent pas seulement des temps de génération plus longs mais commencent aussi à réaliser une génération audio-vidéo synchronisée pour un contenu plus immersif. Des modèles comme Google Veo 3 intègrent des capacités natives de génération audio, marquant des progrès vers une génération complète et immersive de contenu multimodal.
Tendance : De la génération unimodale à la création collaborative de contenu visuel, auditif et multi-sensoriel.
Utilise l'architecture Transformer de Diffusion (DiT), visant à être un 'simulateur mondial' et établissant de nouveaux standards industriels en réalisme physique, cohérence à long terme et capacités multimodales.
Transformer de DiffusionL'architecture centrale est U-Net Spatio-Temporel (STUNet), générant des volumes spatio-temporels entiers d'un coup, poursuivant une fluidité ultime et une cohérence de mouvement globale, profondément intégré avec Gemini pour un contrôle sémantique puissant.
U-Net Spatio-TemporelEn tant que pionnier de l'industrie, son évolution reflète la tendance de 'transformation vidéo' vers 'création directe'. Gen-3 se concentre sur le contrôle fin de caméra, contrôle de mouvement et génération humaine photoréaliste.
Génération MultimodaleConnu pour une interface conviviale et une génération rapide, promouvant grandement l'adoption de vidéo IA. Le modèle excelle en efficacité, adhérence aux prompts et effets créatifs.
Efficace et ConvivialUtilise l'architecture Transformer de Diffusion intégrée avec des mécanismes d'attention spatio-temporelle 3D, combinant les forces de diverses approches pour simuler précisément les lois physiques et de mouvement du monde réel.
Architecture HybrideSe concentre sur des effets de génération de haute qualité et des capacités uniques d'édition en langage naturel, permettant aux utilisateurs de modifier directement le contenu vidéo généré par des instructions, améliorant la contrôlabilité.
Édition en Langage NaturelUne suite complète et ouverte de modèles de fondation vidéo. Son point fort est la capacité de fonctionner sur des GPUs grand public et le support pionnier pour générer du texte bilingue chinois-anglais dans les vidéos, améliorant grandement la praticité.
Contribution Open Source