ThinkSound

Pioneros en la generación y edición de audio con razonamiento de cadena de pensamiento

Resumen


Si bien la IA moderna ha logrado grandes avances en la generación de audio a partir de video, crear un sonido de alta fidelidad que realmente coincida con los matices del contenido visual sigue siendo un obstáculo importante. El diseño de sonido profesional requiere un razonamiento complejo sobre pistas visuales, acústica y sincronización, una habilidad que ha sido difícil de replicar en la IA.

Este artículo presenta ThinkSound, un marco innovador que enseña a la IA a "pensar" como un diseñador de sonido. Mediante el uso del razonamiento de Cadena de Pensamiento (CoT), ThinkSound descompone la compleja tarea de la generación de audio en pasos lógicos y manejables. Esto permite no solo crear sonido desde cero, sino también la edición y el refinamiento interactivos y centrados en objetos mediante simples comandos de lenguaje natural. Para potenciar esto, también presentamos AudioCoT, un conjunto de datos único en su tipo diseñado para entrenar modelos en este proceso de razonamiento. Nuestros experimentos muestran que ThinkSound establece un nuevo estado del arte tanto en calidad de audio como en relevancia, con un rendimiento excepcional incluso en escenas de películas complejas y fuera de distribución.

Sinergia con modelos de generación de video


ThinkSound agrega sin problemas paisajes sonoros ricos y sincronizados a los videos creados por los principales modelos generativos. Los videos a continuación fueron generados por sus respectivos modelos; todo el audio fue creado por ThinkSound.

Veo + ThinkSound

Sora + ThinkSound

MovieGen + ThinkSound

Comparaciones de V2A en VGGSound (en distribución)


Haga clic en cualquier miniatura para cargar y reproducir el video, comparando ThinkSound con otros modelos.

CoTVerdad fundamentalThinkSoundMMAudioSee&Hear
Jugando al tenis
Generar sonidos de tenis golpeando una raqueta y la pelota rebotando...
Video thumbnail for Verdad fundamental
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Impresora imprimiendo
Generar un sonido continuo de impresora imprimiendo con pitidos periódicos...
Video thumbnail for Verdad fundamental
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Rasgando papel
Comenzar con un sutil sonido de desgarro de papel al ser rasgado...
Video thumbnail for Verdad fundamental
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Usando máquinas de coser
Generar sonidos ambientales de sala de costura con un zumbido constante de máquina de coser...
Video thumbnail for Verdad fundamental
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Tocando el bongó
Generar una pista de percusión animada que solo incluya ritmos de batería rítmicos...
Video thumbnail for Verdad fundamental
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Cortando comida
Generar sonidos rítmicos de corte consistentes con el corte de carne o verduras...
Video thumbnail for Verdad fundamental
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Gente comiendo patatas fritas
Generar audio centrado en sonidos de masticación claros y rítmicos...
Video thumbnail for Verdad fundamental
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear

Comparaciones de V2A en MovieGen Audio (fuera de distribución)


Vea cómo se desempeña ThinkSound en clips de películas desafiantes y fuera de distribución.

CoTThinkSoundMovie Gen AudioMMAudio
Sonidos suaves de succión
Fondo suave y constante de succión ligera de chupete...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Cuerdas armoniosas
Cuerdas de guitarra acústica zumbando y vibrando...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Zumbido de televisor antiguo
Ruido de fondo ambiental con estática débil y ruido blanco...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Trueno intenso
Un zumbido de viento bajo y crujidos ocasionales se suman a la atmósfera tormentosa...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Raspado agudo
Sonido agudo y sostenido de raspado de una herramienta sobre una varilla de metal...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Teclas de metal que traquetean
Sonido rítmico de una máquina de escribir antigua, centrado en el traqueteo metálico agudo...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Molienda de monopatín
Rodadura constante sobre una superficie dura, con sonidos agudos de raspado y molienda...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio

Creación interactiva de Foley paso a paso


Generación V2A → Enfoque en el objeto → Inpainting de audio

Genere una alegre melodía de ukelele con un ligero rasgueo y voces armoniosas de dos niñas cantando juntas.
Audio generado (emparejado con video silencioso):
Ahora, concéntrese solo en el canto y los movimientos de las manos en la región seleccionada.
Audio generado para el objeto seleccionado:
Repare el segmento enmascarado (ruidoso) en este clip de audio. Audio Spectrogram with masked region
Audio reparado: Repaired Audio Spectrogram

Generación V2A → Enfoque en el objeto → Edición de audio

Genere suaves sonidos de viento con un gorjeo constante de curruca.
Audio generado (emparejado con video silencioso):
Concéntrese en el pájaro, reduzca el ruido del viento y haga que el gorjeo sea nítido y claro.
Audio generado para el objeto seleccionado:
Mantenga el gorjeo de la curruca y agregue una llamada ocasional de petirrojo para contrastar. Original Audio Spectrogram
Audio editado: Edited Audio Spectrogram

Experimentos


Resultados principales en VGGSound

ThinkSound supera a todas las líneas de base en la mayoría de las métricas objetivas y en todas las métricas subjetivas, logrando mejoras sustanciales en la calidad del audio y la alineación semántica.

Tabla 1: Comparación de nuestro modelo de base ThinkSound...
MethodObjective MetricsSubjective MetricsEfficiency
FD
KLPaSSTKLPaNNsDeSync ↓CLAPcapCLAPCoTMOS-Q
MOS-A ↑ParamsTime(s) ↓
GT---0.550.280.454.37±0.214.56±0.19--
See&Hear118.952.262.301.200.320.352.75±1.082.87±0.99415M19.42
V-AURA†46.992.231.830.650.230.373.42±1.033.20±1.17695M14.00
FoleyCrafter39.152.061.891.210.410.343.08±1.212.63±0.881.20B3.84
Frieren†74.962.552.641.000.370.343.27±1.112.95±1.09159M-
V2A-Mapper†48.102.502.341.230.380.323.31±1.023.16±1.04229M-
MMAudio43.261.651.400.440.310.403.84±0.893.97±0.821.03B3.01
ThinkSound34.561.521.320.460.330.464.02±0.734.18±0.791.30B1.07
w/o CoT Reasoning39.841.591.400.480.290.413.91±0.834.04±0.751.30B0.98

Estudios de ablación

Investigamos la contribución de cada componente para validar la efectividad de nuestras opciones de diseño, centrándonos en la codificación de texto y la integración multimodal.

Estrategias de codificación de texto

Tabla 2: Comparación de estrategias de fusión de codificadores de texto...
MethodFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
CLIP39.841.591.400.480.41
T5 (CoT)37.651.541.350.460.44
CLIP + T534.561.521.320.460.46

Integración multimodal

Tabla 3: Comparación de mecanismos de integración multimodal
IntegrationFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
audio only37.131.581.370.500.43
linear video38.961.581.380.460.45
gated video34.561.521.320.460.46

Impacto del tamaño del modelo

Tabla 4: Impacto de los resultados del tamaño del modelo.
SizeFD ↓KLPaSSTKLPaNNsDeSync ↓CLAPCoT
Small40.801.641.380.460.41
Medium36.801.561.340.460.44
Large34.561.521.320.460.46

Preguntas frecuentes


ThinkSound es un marco de IA avanzado diseñado para generar y editar audio para videos. A diferencia de los modelos tradicionales, utiliza un proceso de razonamiento llamado Cadena de Pensamiento (CoT) para comprender el contexto de un video y crear un sonido de alta calidad y muy relevante, muy parecido a como lo haría un diseñador de sonido profesional.

La Cadena de Pensamiento permite que el modelo descomponga una tarea compleja (como "crear una banda sonora para este video") en pasos más pequeños y lógicos. Por ejemplo, primero podría identificar los objetos y acciones principales, luego razonar sobre la acústica del entorno y, finalmente, decidir los sonidos apropiados y su sincronización. Este proceso paso a paso conduce a una generación de audio más precisa y consciente del contexto.

Tres cosas principales: 1) Su uso del razonamiento CoT para una creación de sonido más inteligente. 2) Su interactividad, que permite a los usuarios editar audio, centrarse en objetos específicos y refinar el sonido utilizando lenguaje natural. 3) Está impulsado por AudioCoT, un conjunto de datos único creado específicamente para entrenar este tipo de generación de audio basada en el razonamiento.

¡Sí! Hemos proporcionado una demostración interactiva en Hugging Face Spaces, enlazada en la parte superior de esta página. También puede explorar el código fuente en GitHub para ejecutar el modelo usted mismo.