Rastreando el viaje desde clips iniciales borrosos e incoherentes hasta saltos impresionantes impulsados por modelos de difusión y transformers que pueden simular el mundo físico.
2014 - 2018
Los intentos iniciales usaron Redes Neuronales Recurrentes (RNN) para predecir píxeles cuadro por cuadro, como "adivinar" cuadros subsecuentes. Este enfoque sufrió de acumulación de errores debido a dependencias a largo plazo, causando que los videos generados se volvieran rápidamente borrosos y distorsionados.
Cuadro T
(Real)
Cuadro T+1
(Predicho)
Cuadro T+1
(Predicho)
Cuadro T+2
(Borroso)
Desafío Principal: La acumulación de errores lleva a la rápida degradación de la imagen.
2018 - 2022
Las GANs (Redes Adversarias Generativas) mejoraron la calidad de imagen a través de la competencia generador-discriminador pero lucharon con la consistencia temporal. Las VAEs (Autoencoders Variacionales) aprendieron representaciones latentes de datos pero a menudo produjeron resultados borrosos y colapso de modo.
← Optimizar Generador
Optimizar Discriminador →
Desafío Principal: Inestabilidad de entrenamiento GAN y falta de coherencia temporal en videos.
2022 - 2023
Para abordar los costos computacionales, surgieron los Modelos de Difusión Latente (LDM). Usan inteligentemente VAE para comprimir videos en espacio latente de baja dimensión, realizan generación eficiente de eliminación de ruido vía modelos de difusión, luego decodifican de vuelta al espacio de píxeles a través de VAE. Esta arquitectura mejoró enormemente la eficiencia y practicidad.
Significado: Logró equilibrio perfecto entre eficiencia computacional y calidad de generación.
Principios de 2024
Representado por Sora, esta arquitectura reemplazó U-Net con Transformer como backbone del modelo de difusión. Al deconstruir videos en parches espacio-temporales, el mecanismo de auto-atención del Transformer captura dependencias espacio-temporales de largo alcance, resolviendo fundamentalmente desafíos de coherencia temporal.
2. Espacio latente descompuesto en secuencias de parches espacio-temporales
↓3. Procesar secuencias de parches como lenguaje
Significado: Tratar la generación de video como modelado de secuencia de 'lenguaje visual', logrando avances cualitativos.
2024 - Presente
La competencia tecnológica entra en nuevas dimensiones. Los modelos no solo buscan tiempos de generación más largos sino que también comienzan a lograr generación sincronizada de audio-video para contenido más inmersivo. Modelos como Google Veo 3 integran capacidades nativas de generación de audio, marcando progreso hacia la generación completa e inmersiva de contenido multimodal.
Tendencia: De generación unimodal a creación colaborativa de contenido visual, auditivo y multi-sensorial.
Usa arquitectura Transformer de Difusión (DiT), apuntando a ser un 'simulador mundial' y estableciendo nuevos estándares de la industria en realismo físico, coherencia a largo plazo y capacidades multimodales.
Transformer de DifusiónLa arquitectura central es U-Net Espacio-Temporal (STUNet), generando volúmenes espacio-temporales completos de una vez, buscando suavidad máxima y consistencia de movimiento global, profundamente integrado con Gemini para control semántico poderoso.
U-Net Espacio-TemporalComo pionero de la industria, su evolución refleja la tendencia de 'transformación de video' a 'creación directa'. Gen-3 se enfoca en control fino de cámara, control de movimiento y generación humana fotorrealística.
Generación MultimodalConocido por interfaz amigable y generación rápida, promoviendo enormemente la adopción de video IA. El modelo sobresale en eficiencia, adherencia a prompts y efectos creativos.
Eficiente y AmigableUsa arquitectura Transformer de Difusión integrada con mecanismos de atención espacio-temporal 3D, combinando fortalezas de varios enfoques para simular con precisión leyes físicas y de movimiento del mundo real.
Arquitectura HíbridaSe enfoca en efectos de generación de alta calidad y capacidades únicas de edición en lenguaje natural, permitiendo a usuarios modificar directamente contenido de video generado a través de instrucciones, mejorando la controlabilidad.
Edición en Lenguaje NaturalUna suite integral y abierta de modelos de base de video. Su punto destacado es la capacidad de ejecutar en GPUs de nivel consumidor y soporte pionero para generar texto bilingüe chino-inglés en videos, mejorando enormemente la practicidad.
Contribución de Código Abierto