ThinkSound

Pionnier de la génération et de l'édition audio avec le raisonnement en chaîne de pensée

Résumé

Bien que l'IA moderne ait fait de grands progrès dans la génération d'audio à partir de vidéos, la création d'un son haute-fidélité qui correspond vraiment à la nuance du contenu visuel reste un obstacle majeur. La conception sonore professionnelle nécessite un raisonnement complexe sur les indices visuels, l'acoustique et le timing - une compétence qui a été difficile à reproduire en IA.

Cet article présente ThinkSound, un cadre révolutionnaire qui apprend à l'IA à "penser" comme un concepteur sonore. En utilisant le raisonnement en chaîne de pensée (CoT), ThinkSound décompose la tâche complexe de la génération audio en étapes logiques et gérables. Cela permet non seulement de créer du son à partir de zéro, mais aussi d'effectuer des modifications et des affinements interactifs, axés sur les objets, à l'aide de simples commandes en langage naturel. Pour ce faire, nous présentons également AudioCoT, un ensemble de données unique en son genre, conçu pour entraîner les modèles à ce processus de raisonnement. Nos expériences montrent que ThinkSound établit un nouvel état de l'art en matière de qualité et de pertinence audio, avec des performances exceptionnelles même sur des scènes de films complexes et hors distribution.

Synergie avec les modèles de génération de vidéos

ThinkSound ajoute de manière transparente des paysages sonores riches et synchronisés aux vidéos créées par les principaux modèles génératifs. Les vidéos ci-dessous ont été générées par leurs modèles respectifs ; tout l'audio a été créé par ThinkSound.

Veo + ThinkSound

Sora + ThinkSound

MovieGen + ThinkSound

Comparaisons V2A sur VGGSound (en distribution)

Cliquez sur une miniature pour charger et lire la vidéo, en comparant ThinkSound à d'autres modèles.

CoT	Vérité terrain	ThinkSound	MMAudio	See&Hear	V-AURA	Frieren	V2A-Mapper	FoleyCrafter
Jouer au tennis Générer des sons de raquette de tennis frappant une balle et le rebond de la balle...
Impression d'imprimante Générer un son d'impression continu avec des bips périodiques...
Déchirer du papier Commencer par un son subtil de déchirement de papier...
Utilisation de machines à coudre Générer des sons d'ambiance de salle de couture avec un bourdonnement constant de machine à coudre...
Jouer du bongo Générer une piste de percussion entraînante ne comportant que des battements de tambour rythmiques...
Hacher de la nourriture Générer des sons de hachage rythmiques correspondant à la coupe de viande ou de légumes...
Personnes mangeant des chips Générer un son axé sur des bruits de mastication clairs et rythmiques...

Comparaisons V2A sur MovieGen Audio (hors distribution)

Découvrez les performances de ThinkSound sur des extraits de films difficiles et hors distribution.

CoT	ThinkSound	Movie Gen Audio	MMAudio
Doux bruits de succion Fond sonore doux et régulier de succion de tétine légère...
Cordes harmonieuses Cordes de guitare acoustique qui bourdonnent et vrombissent...
Bourdonnement de vieille télévision Bruit de fond ambiant avec de légers parasites et un bruit blanc...
Tonnerre intense Un faible bourdonnement de vent et des craquements occasionnels ajoutent à l'atmosphère orageuse...
Grattage aigu Son de grattage aigu et soutenu d'un outil sur une tige métallique...
Claquement de clés en métal Son rythmique d'une vieille machine à écrire, axé sur le claquement métallique aigu...
Grincement de skateboard Roulement régulier sur une surface dure, avec des bruits de grattage et de grincement aigus...

Création interactive de bruitage étape par étape

Génération V2A → Focus sur l'objet → Inpainting audio

Générez une mélodie de ukulélé joyeuse avec un léger grattage et des voix harmonieuses de deux jeunes filles chantant ensemble.

Audio généré (associé à une vidéo silencieuse) :

Maintenant, concentrez-vous uniquement sur le chant et les mouvements des mains dans la région sélectionnée.

Audio généré pour l'objet sélectionné :

Réparez le segment masqué (bruyant) de ce clip audio.

Audio réparé :

Génération V2A → Focus sur l'objet → Édition audio

Générez de doux bruits de vent avec un gazouillis constant de fauvette.

Audio généré (associé à une vidéo silencieuse) :

Concentrez-vous sur l'oiseau, réduisez le bruit du vent et rendez le gazouillis net et clair.

Audio généré pour l'objet sélectionné :

Gardez le gazouillis de la fauvette et ajoutez un appel occasionnel de rouge-gorge pour le contraste.

Audio édité :

Expériences

Principaux résultats sur VGGSound

ThinkSound surpasse toutes les lignes de base sur la plupart des métriques objectives et toutes les métriques subjectives, réalisant des améliorations substantielles de la qualité audio et de l'alignement sémantique.

Tableau 1 : Comparaison de notre modèle de base ThinkSound...
Method	Objective Metrics						Subjective Metrics		Efficiency
	FD ↓	KL_PaSST ↓	KL_PaNNs ↓	DeSync ↓	CLAP_cap ↑	CLAP_CoT ↑	MOS-Q ↑	MOS-A ↑	Params	Time(s) ↓
GT	-	-	-	0.55	0.28	0.45	4.37±0.21	4.56±0.19	-	-
See&Hear	118.95	2.26	2.30	1.20	0.32	0.35	2.75±1.08	2.87±0.99	415M	19.42
V-AURA†	46.99	2.23	1.83	0.65	0.23	0.37	3.42±1.03	3.20±1.17	695M	14.00
FoleyCrafter	39.15	2.06	1.89	1.21	0.41	0.34	3.08±1.21	2.63±0.88	1.20B	3.84
Frieren†	74.96	2.55	2.64	1.00	0.37	0.34	3.27±1.11	2.95±1.09	159M	-
V2A-Mapper†	48.10	2.50	2.34	1.23	0.38	0.32	3.31±1.02	3.16±1.04	229M	-
MMAudio	43.26	1.65	1.40	0.44	0.31	0.40	3.84±0.89	3.97±0.82	1.03B	3.01
ThinkSound	34.56	1.52	1.32	0.46	0.33	0.46	4.02±0.73	4.18±0.79	1.30B	1.07
w/o CoT Reasoning	39.84	1.59	1.40	0.48	0.29	0.41	3.91±0.83	4.04±0.75	1.30B	0.98

Études d'ablation

Nous avons étudié la contribution de chaque composant pour valider l'efficacité de nos choix de conception, en nous concentrant sur l'encodage de texte et l'intégration multimodale.

Stratégies d'encodage de texte

Tableau 2 : Comparaison des stratégies de fusion des encodeurs de texte...
Method	FD ↓	KL_PaSST ↓	KL_PaNNs ↓	DeSync ↓	CLAP ↑
CLIP	39.84	1.59	1.40	0.48	0.41
T5 (CoT)	37.65	1.54	1.35	0.46	0.44
CLIP + T5	34.56	1.52	1.32	0.46	0.46

Intégration multimodale

Tableau 3 : Comparaison des mécanismes d'intégration multimodale
Integration	FD ↓	KL_PaSST ↓	KL_PaNNs ↓	DeSync ↓	CLAP ↑
audio only	37.13	1.58	1.37	0.50	0.43
linear video	38.96	1.58	1.38	0.46	0.45
gated video	34.56	1.52	1.32	0.46	0.46

Impact de la taille du modèle

Tableau 4 : Impact des résultats de la taille du modèle.
Size	FD ↓	KL_PaSST ↓	KL_PaNNs ↓	DeSync ↓	CLAP_CoT ↑
Small	40.80	1.64	1.38	0.46	0.41
Medium	36.80	1.56	1.34	0.46	0.44
Large	34.56	1.52	1.32	0.46	0.46

Questions fréquemment posées

ThinkSound est un cadre d'IA avancé conçu pour générer et éditer de l'audio pour les vidéos. Contrairement aux modèles traditionnels, il utilise un processus de raisonnement appelé Chaîne de Pensée (CoT) pour comprendre le contexte d'une vidéo et créer un son de haute qualité et très pertinent, un peu comme le ferait un concepteur sonore professionnel.

La Chaîne de Pensée permet au modèle de décomposer une tâche complexe (comme "créer une bande-son pour cette vidéo") en étapes plus petites et logiques. Par exemple, il peut d'abord identifier les principaux objets et actions, puis raisonner sur l'acoustique de l'environnement, et enfin décider des sons appropriés et de leur synchronisation. Ce processus étape par étape conduit à une génération audio plus précise et plus consciente du contexte.

Trois choses principales : 1) Son utilisation du raisonnement CoT pour une création sonore plus intelligente. 2) Son interactivité, permettant aux utilisateurs d'éditer l'audio, de se concentrer sur des objets spécifiques et d'affiner le son à l'aide du langage naturel. 3) Il est alimenté par AudioCoT, un ensemble de données unique conçu spécifiquement pour entraîner ce type de génération audio basée sur le raisonnement.

Oui ! Nous avons fourni une démo interactive sur Hugging Face Spaces, accessible en lien en haut de cette page. Vous pouvez également explorer le code source sur GitHub pour exécuter le modèle vous-même.