Die Reise von frühen verschwommenen, inkohärenten Clips zu atemberaubenden Sprüngen verfolgen, die von Diffusionsmodellen und Transformern angetrieben werden, die die physische Welt simulieren können.
2014 - 2018
Erste Versuche verwendeten Rekurrente Neuronale Netzwerke (RNN), um Pixel Frame für Frame vorherzusagen, wie das "Erraten" nachfolgender Frames. Dieser Ansatz litt unter Fehlerakkumulation aufgrund langfristiger Abhängigkeiten, wodurch generierte Videos schnell verschwommen und verzerrt wurden.
Frame T
(Real)
Frame T+1
(Vorhergesagt)
Frame T+1
(Vorhergesagt)
Frame T+2
(Verschwommen)
Kernherausforderung: Fehlerakkumulation führt zu schneller Bildverschlechterung.
2018 - 2022
GANs (Generative Adversarial Networks) verbesserten die Bildqualität durch Generator-Diskriminator-Konkurrenz, hatten aber Schwierigkeiten mit zeitlicher Konsistenz. VAEs (Variational Autoencoders) lernten latente Datenrepräsentationen, produzierten aber oft verschwommene Ergebnisse und Moduskollaps.
← Generator optimieren
Diskriminator optimieren →
Kernherausforderung: GAN-Trainingsinstabilität und mangelnde zeitliche Kohärenz in Videos.
2022 - 2023
Um Rechenkosten anzugehen, entstanden Latente Diffusionsmodelle (LDM). Sie verwenden geschickt VAE, um Videos in niedrigdimensionalen latenten Raum zu komprimieren, führen effiziente Entrauschungsgenerierung über Diffusionsmodelle durch und dekodieren dann zurück in den Pixelraum durch VAE. Diese Architektur verbesserte Effizienz und Praktikabilität erheblich.
Bedeutung: Erreichte perfekte Balance zwischen Recheneffizienz und Generierungsqualität.
Anfang 2024
Vertreten durch Sora, ersetzte diese Architektur U-Net durch Transformer als Rückgrat des Diffusionsmodells. Durch Dekonstruktion von Videos in räumlich-zeitliche Patches erfasst der Selbstaufmerksamkeitsmechanismus des Transformers langreichweitige räumlich-zeitliche Abhängigkeiten und löst grundlegend zeitliche Kohärenzherausforderungen.
2. Latenter Raum in räumlich-zeitliche Patch-Sequenzen zerlegt
↓3. Patch-Sequenzen wie Sprache verarbeiten
Bedeutung: Videogenerierung als 'visuelle Sprache'-Sequenzmodellierung behandeln, qualitative Durchbrüche erzielen.
2024 - Gegenwart
Der technologische Wettbewerb betritt neue Dimensionen. Modelle streben nicht nur längere Generierungszeiten an, sondern beginnen auch, synchronisierte Audio-Video-Generierung für immersiveren Inhalt zu erreichen. Modelle wie Google Veo 3 integrieren native Audio-Generierungsfähigkeiten und markieren Fortschritte in Richtung vollständiger, immersiver multimodaler Inhaltsgenerierung.
Trend: Von unimodaler Generierung zur kollaborativen Erstellung visueller, auditiver und multisensorischer Inhalte.
Verwendet Diffusions-Transformer (DiT) Architektur, zielt darauf ab, ein 'Weltsimulator' zu sein und setzt neue Industriestandards in physischem Realismus, langfristiger Kohärenz und multimodalen Fähigkeiten.
Diffusions-TransformerKernarchitektur ist Räumlich-Zeitliches U-Net (STUNet), generiert ganze räumlich-zeitliche Volumen auf einmal, strebt ultimative Glätte und globale Bewegungskonsistenz an, tief integriert mit Gemini für mächtige semantische Kontrolle.
Räumlich-Zeitliches U-NetAls Industriepionier spiegelt seine Evolution den Trend von 'Videotransformation' zu 'direkter Erstellung' wider. Gen-3 fokussiert auf feine Kamerakontrolle, Bewegungskontrolle und fotorealistische menschliche Generierung.
Multimodale GenerierungBekannt für benutzerfreundliche Oberfläche und schnelle Generierung, fördert KI-Video-Adoption erheblich. Das Modell zeichnet sich in Effizienz, Prompt-Befolgung und kreativen Effekten aus.
Effizient und BenutzerfreundlichVerwendet Diffusions-Transformer-Architektur integriert mit 3D-räumlich-zeitlichen Aufmerksamkeitsmechanismen, kombiniert Stärken verschiedener Ansätze zur präzisen Simulation realer Physik- und Bewegungsgesetze.
Hybrid-ArchitekturFokussiert auf hochwertige Generierungseffekte und einzigartige natürlichsprachliche Bearbeitungsfähigkeiten, ermöglicht Benutzern, generierten Videoinhalt direkt durch Anweisungen zu modifizieren und verbessert die Kontrollierbarkeit.
Natürlichsprachliche BearbeitungEine umfassende und offene Video-Foundation-Modell-Suite. Ihr Highlight ist die Fähigkeit, auf Verbraucher-GPUs zu laufen und Pionierunterstützung für die Generierung von zweisprachigem chinesisch-englischem Text in Videos, was die Praktikabilität erheblich verbessert.
Open-Source-Beitrag