ThinkSound

Pionnier de la génération et de l'édition audio avec le raisonnement en chaîne de pensée

Résumé


Bien que l'IA moderne ait fait de grands progrès dans la génération d'audio à partir de vidéos, la création d'un son haute-fidélité qui correspond vraiment à la nuance du contenu visuel reste un obstacle majeur. La conception sonore professionnelle nécessite un raisonnement complexe sur les indices visuels, l'acoustique et le timing - une compétence qui a été difficile à reproduire en IA.

Cet article présente ThinkSound, un cadre révolutionnaire qui apprend à l'IA à "penser" comme un concepteur sonore. En utilisant le raisonnement en chaîne de pensée (CoT), ThinkSound décompose la tâche complexe de la génération audio en étapes logiques et gérables. Cela permet non seulement de créer du son à partir de zéro, mais aussi d'effectuer des modifications et des affinements interactifs, axés sur les objets, à l'aide de simples commandes en langage naturel. Pour ce faire, nous présentons également AudioCoT, un ensemble de données unique en son genre, conçu pour entraîner les modèles à ce processus de raisonnement. Nos expériences montrent que ThinkSound établit un nouvel état de l'art en matière de qualité et de pertinence audio, avec des performances exceptionnelles même sur des scènes de films complexes et hors distribution.

Synergie avec les modèles de génération de vidéos


ThinkSound ajoute de manière transparente des paysages sonores riches et synchronisés aux vidéos créées par les principaux modèles génératifs. Les vidéos ci-dessous ont été générées par leurs modèles respectifs ; tout l'audio a été créé par ThinkSound.

Veo + ThinkSound

Sora + ThinkSound

MovieGen + ThinkSound

Comparaisons V2A sur VGGSound (en distribution)


Cliquez sur une miniature pour charger et lire la vidéo, en comparant ThinkSound à d'autres modèles.

CoTVérité terrainThinkSoundMMAudioSee&Hear
Jouer au tennis
Générer des sons de raquette de tennis frappant une balle et le rebond de la balle...
Video thumbnail for Vérité terrain
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Impression d'imprimante
Générer un son d'impression continu avec des bips périodiques...
Video thumbnail for Vérité terrain
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Déchirer du papier
Commencer par un son subtil de déchirement de papier...
Video thumbnail for Vérité terrain
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Utilisation de machines à coudre
Générer des sons d'ambiance de salle de couture avec un bourdonnement constant de machine à coudre...
Video thumbnail for Vérité terrain
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Jouer du bongo
Générer une piste de percussion entraînante ne comportant que des battements de tambour rythmiques...
Video thumbnail for Vérité terrain
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Hacher de la nourriture
Générer des sons de hachage rythmiques correspondant à la coupe de viande ou de légumes...
Video thumbnail for Vérité terrain
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Personnes mangeant des chips
Générer un son axé sur des bruits de mastication clairs et rythmiques...
Video thumbnail for Vérité terrain
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear

Comparaisons V2A sur MovieGen Audio (hors distribution)


Découvrez les performances de ThinkSound sur des extraits de films difficiles et hors distribution.

CoTThinkSoundMovie Gen AudioMMAudio
Doux bruits de succion
Fond sonore doux et régulier de succion de tétine légère...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Cordes harmonieuses
Cordes de guitare acoustique qui bourdonnent et vrombissent...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Bourdonnement de vieille télévision
Bruit de fond ambiant avec de légers parasites et un bruit blanc...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Tonnerre intense
Un faible bourdonnement de vent et des craquements occasionnels ajoutent à l'atmosphère orageuse...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Grattage aigu
Son de grattage aigu et soutenu d'un outil sur une tige métallique...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Claquement de clés en métal
Son rythmique d'une vieille machine à écrire, axé sur le claquement métallique aigu...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Grincement de skateboard
Roulement régulier sur une surface dure, avec des bruits de grattage et de grincement aigus...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio

Création interactive de bruitage étape par étape


Génération V2A → Focus sur l'objet → Inpainting audio

Générez une mélodie de ukulélé joyeuse avec un léger grattage et des voix harmonieuses de deux jeunes filles chantant ensemble.
Audio généré (associé à une vidéo silencieuse) :
Maintenant, concentrez-vous uniquement sur le chant et les mouvements des mains dans la région sélectionnée.
Audio généré pour l'objet sélectionné :
Réparez le segment masqué (bruyant) de ce clip audio. Audio Spectrogram with masked region
Audio réparé : Repaired Audio Spectrogram

Génération V2A → Focus sur l'objet → Édition audio

Générez de doux bruits de vent avec un gazouillis constant de fauvette.
Audio généré (associé à une vidéo silencieuse) :
Concentrez-vous sur l'oiseau, réduisez le bruit du vent et rendez le gazouillis net et clair.
Audio généré pour l'objet sélectionné :
Gardez le gazouillis de la fauvette et ajoutez un appel occasionnel de rouge-gorge pour le contraste. Original Audio Spectrogram
Audio édité : Edited Audio Spectrogram

Expériences


Principaux résultats sur VGGSound

ThinkSound surpasse toutes les lignes de base sur la plupart des métriques objectives et toutes les métriques subjectives, réalisant des améliorations substantielles de la qualité audio et de l'alignement sémantique.

Tableau 1 : Comparaison de notre modèle de base ThinkSound...
MethodObjective MetricsSubjective MetricsEfficiency
FD
KLPaSSTKLPaNNsDeSync ↓CLAPcapCLAPCoTMOS-Q
MOS-A ↑ParamsTime(s) ↓
GT---0.550.280.454.37±0.214.56±0.19--
See&Hear118.952.262.301.200.320.352.75±1.082.87±0.99415M19.42
V-AURA†46.992.231.830.650.230.373.42±1.033.20±1.17695M14.00
FoleyCrafter39.152.061.891.210.410.343.08±1.212.63±0.881.20B3.84
Frieren†74.962.552.641.000.370.343.27±1.112.95±1.09159M-
V2A-Mapper†48.102.502.341.230.380.323.31±1.023.16±1.04229M-
MMAudio43.261.651.400.440.310.403.84±0.893.97±0.821.03B3.01
ThinkSound34.561.521.320.460.330.464.02±0.734.18±0.791.30B1.07
w/o CoT Reasoning39.841.591.400.480.290.413.91±0.834.04±0.751.30B0.98

Études d'ablation

Nous avons étudié la contribution de chaque composant pour valider l'efficacité de nos choix de conception, en nous concentrant sur l'encodage de texte et l'intégration multimodale.

Stratégies d'encodage de texte

Tableau 2 : Comparaison des stratégies de fusion des encodeurs de texte...
MethodFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
CLIP39.841.591.400.480.41
T5 (CoT)37.651.541.350.460.44
CLIP + T534.561.521.320.460.46

Intégration multimodale

Tableau 3 : Comparaison des mécanismes d'intégration multimodale
IntegrationFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
audio only37.131.581.370.500.43
linear video38.961.581.380.460.45
gated video34.561.521.320.460.46

Impact de la taille du modèle

Tableau 4 : Impact des résultats de la taille du modèle.
SizeFD ↓KLPaSSTKLPaNNsDeSync ↓CLAPCoT
Small40.801.641.380.460.41
Medium36.801.561.340.460.44
Large34.561.521.320.460.46

Questions fréquemment posées


ThinkSound est un cadre d'IA avancé conçu pour générer et éditer de l'audio pour les vidéos. Contrairement aux modèles traditionnels, il utilise un processus de raisonnement appelé Chaîne de Pensée (CoT) pour comprendre le contexte d'une vidéo et créer un son de haute qualité et très pertinent, un peu comme le ferait un concepteur sonore professionnel.

La Chaîne de Pensée permet au modèle de décomposer une tâche complexe (comme "créer une bande-son pour cette vidéo") en étapes plus petites et logiques. Par exemple, il peut d'abord identifier les principaux objets et actions, puis raisonner sur l'acoustique de l'environnement, et enfin décider des sons appropriés et de leur synchronisation. Ce processus étape par étape conduit à une génération audio plus précise et plus consciente du contexte.

Trois choses principales : 1) Son utilisation du raisonnement CoT pour une création sonore plus intelligente. 2) Son interactivité, permettant aux utilisateurs d'éditer l'audio, de se concentrer sur des objets spécifiques et d'affiner le son à l'aide du langage naturel. 3) Il est alimenté par AudioCoT, un ensemble de données unique conçu spécifiquement pour entraîner ce type de génération audio basée sur le raisonnement.

Oui ! Nous avons fourni une démo interactive sur Hugging Face Spaces, accessible en lien en haut de cette page. Vous pouvez également explorer le code source sur GitHub pour exécuter le modèle vous-même.