ThinkSound

Wegweisende Audiogenerierung und -bearbeitung mit Chain-of-Thought-Reasoning

Zusammenfassung


Obwohl die moderne KI große Fortschritte bei der Erzeugung von Audio aus Videos gemacht hat, bleibt die Erstellung von High-Fidelity-Sound, der wirklich der Nuance des visuellen Inhalts entspricht, eine große Hürde. Professionelles Sounddesign erfordert komplexes Denken über visuelle Hinweise, Akustik und Timing – eine Fähigkeit, die in der KI schwer zu replizieren war.

Dieses Papier stellt ThinkSound vor, ein bahnbrechendes Framework, das KI beibringt, wie ein Sounddesigner zu "denken". Durch die Verwendung von Chain-of-Thought (CoT)-Reasoning zerlegt ThinkSound die komplexe Aufgabe der Audiogenerierung in logische, überschaubare Schritte. Dies ermöglicht nicht nur die Erstellung von Sound von Grund auf, sondern auch die interaktive, objektfokussierte Bearbeitung und Verfeinerung mit einfachen Befehlen in natürlicher Sprache. Um dies zu ermöglichen, präsentieren wir auch AudioCoT, einen einzigartigen Datensatz, der entwickelt wurde, um Modelle in diesem Denkprozess zu trainieren. Unsere Experimente zeigen, dass ThinkSound einen neuen Stand der Technik in Bezug auf Audioqualität und Relevanz setzt und selbst bei komplexen, nicht zur Verteilung gehörenden Filmszenen außergewöhnlich gut abschneidet.

Synergie mit Videogenerierungsmodellen


ThinkSound fügt nahtlos reichhaltige, synchronisierte Klanglandschaften zu Videos hinzu, die von führenden generativen Modellen erstellt wurden. Die folgenden Videos wurden von ihren jeweiligen Modellen generiert; der gesamte Ton wurde von ThinkSound erstellt.

Veo + ThinkSound

Sora + ThinkSound

MovieGen + ThinkSound

V2A-Vergleiche auf VGGSound (In-Distribution)


Klicken Sie auf eine Miniaturansicht, um das Video zu laden und abzuspielen und ThinkSound mit anderen Modellen zu vergleichen.

CoTGround TruthThinkSoundMMAudioSee&Hear
Tennis spielen
Erzeugen Sie Geräusche von einem Tennisschläger, der einen Ball trifft, und dem Aufprall des Balls...
Video thumbnail for Ground Truth
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Drucker druckt
Erzeugen Sie ein kontinuierliches Druckergeräusch mit periodischen Pieptönen...
Video thumbnail for Ground Truth
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Papier zerreißen
Beginnen Sie mit einem subtilen Zerreißgeräusch von Papier, das zerrissen wird...
Video thumbnail for Ground Truth
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Nähmaschinen benutzen
Erzeugen Sie Umgebungsgeräusche eines Nähzimmers mit gleichmäßigem Nähmaschinensummen...
Video thumbnail for Ground Truth
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Bongo spielen
Erzeugen Sie einen lebhaften Percussion-Track, der nur rhythmische Trommelschläge enthält...
Video thumbnail for Ground Truth
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Essen hacken
Erzeugen Sie rhythmische Hackgeräusche, die mit dem Schneiden von Fleisch oder Gemüse übereinstimmen...
Video thumbnail for Ground Truth
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
Leute, die Chips essen
Erzeugen Sie Audio, das sich auf klare, rhythmische Kaugeräusche konzentriert...
Video thumbnail for Ground Truth
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear

V2A-Vergleiche auf MovieGen Audio (Out-of-Distribution)


Sehen Sie, wie ThinkSound bei anspruchsvollen, nicht zur Verteilung gehörenden Filmclips abschneidet.

CoTThinkSoundMovie Gen AudioMMAudio
Sanfte Saugeräusche
Weicher, gleichmäßiger Hintergrund von leichtem Schnullersaugen...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Harmonische Saiten
Akustikgitarrensaiten summen und brummen...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Alter Fernseher summt
Umgebungsgeräusche mit schwachem Rauschen und weißem Rauschen...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Intensiver Donner
Ein leises Windsummen und gelegentliches Knistern tragen zur stürmischen Atmosphäre bei...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Hochfrequentes Schaben
Hochfrequentes, anhaltendes Schabegeräusch eines Werkzeugs auf einem Metallstab...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Klappernde Metalltasten
Rhythmisches Geräusch einer alten Schreibmaschine, das sich auf das scharfe metallische Klappern konzentriert...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
Skateboard-Grinding
Stetiges Rollen auf einer harten Oberfläche mit scharfen Schabe- und Schleifgeräuschen...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio

Interaktive Schritt-für-Schritt-Foley-Erstellung


V2A-Gen → Objektfokus → Audio-Inpainting

Erzeugen Sie eine fröhliche Ukulelenmelodie mit leichtem Strumming und harmonischem Gesang von zwei jungen Mädchen, die zusammen singen.
Generiertes Audio (gepaart mit stillem Video):
Konzentrieren Sie sich jetzt nur auf den Gesang und die Handbewegungen im ausgewählten Bereich.
Generiertes Audio für das ausgewählte Objekt:
Reparieren Sie das maskierte (verrauschte) Segment in diesem Audioclip. Audio Spectrogram with masked region
Repariertes Audio: Repaired Audio Spectrogram

V2A-Gen → Objektfokus → Audiobearbeitung

Erzeugen Sie sanfte Windgeräusche mit gleichmäßigem Grasmückenzwitschern.
Generiertes Audio (gepaart mit stillem Video):
Konzentrieren Sie sich auf den Vogel, reduzieren Sie das Windgeräusch und machen Sie das Zwitschern klar und deutlich.
Generiertes Audio für das ausgewählte Objekt:
Behalten Sie das Grasmückenzwitschern bei und fügen Sie gelegentlich einen Rotkehlchenruf als Kontrast hinzu. Original Audio Spectrogram
Bearbeitetes Audio: Edited Audio Spectrogram

Experimente


Hauptergebnisse auf VGGSound

ThinkSound übertrifft alle Baselines in den meisten objektiven Metriken und allen subjektiven Metriken und erzielt erhebliche Verbesserungen bei der Audioqualität und der semantischen Ausrichtung.

Tabelle 1: Vergleich unseres ThinkSound-Basismodells...
MethodObjective MetricsSubjective MetricsEfficiency
FD
KLPaSSTKLPaNNsDeSync ↓CLAPcapCLAPCoTMOS-Q
MOS-A ↑ParamsTime(s) ↓
GT---0.550.280.454.37±0.214.56±0.19--
See&Hear118.952.262.301.200.320.352.75±1.082.87±0.99415M19.42
V-AURA†46.992.231.830.650.230.373.42±1.033.20±1.17695M14.00
FoleyCrafter39.152.061.891.210.410.343.08±1.212.63±0.881.20B3.84
Frieren†74.962.552.641.000.370.343.27±1.112.95±1.09159M-
V2A-Mapper†48.102.502.341.230.380.323.31±1.023.16±1.04229M-
MMAudio43.261.651.400.440.310.403.84±0.893.97±0.821.03B3.01
ThinkSound34.561.521.320.460.330.464.02±0.734.18±0.791.30B1.07
w/o CoT Reasoning39.841.591.400.480.290.413.91±0.834.04±0.751.30B0.98

Ablationsstudien

Wir haben den Beitrag jeder Komponente untersucht, um die Wirksamkeit unserer Designentscheidungen zu validieren, wobei wir uns auf die Textkodierung und die multimodale Integration konzentriert haben.

Textkodierungsstrategien

Tabelle 2: Vergleich der Fusionsstrategien von Text-Encodern...
MethodFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
CLIP39.841.591.400.480.41
T5 (CoT)37.651.541.350.460.44
CLIP + T534.561.521.320.460.46

Multimodale Integration

Tabelle 3: Vergleich der multimodalen Integrationsmechanismen
IntegrationFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
audio only37.131.581.370.500.43
linear video38.961.581.380.460.45
gated video34.561.521.320.460.46

Auswirkungen der Modellgröße

Tabelle 4: Auswirkungen der Ergebnisse der Modellgröße.
SizeFD ↓KLPaSSTKLPaNNsDeSync ↓CLAPCoT
Small40.801.641.380.460.41
Medium36.801.561.340.460.44
Large34.561.521.320.460.46

Häufig gestellte Fragen


ThinkSound ist ein fortschrittliches KI-Framework, das zur Erzeugung und Bearbeitung von Audio für Videos entwickelt wurde. Im Gegensatz zu herkömmlichen Modellen verwendet es einen Denkprozess namens Chain-of-Thought (CoT), um den Kontext eines Videos zu verstehen und hochrelevanten, hochwertigen Sound zu erstellen, ähnlich wie es ein professioneller Sounddesigner tun würde.

Chain-of-Thought ermöglicht es dem Modell, eine komplexe Aufgabe (wie "Erstelle einen Soundtrack für dieses Video") in kleinere, logische Schritte zu zerlegen. Zum Beispiel könnte es zuerst die Hauptobjekte und -aktionen identifizieren, dann über die Akustik der Umgebung nachdenken und schließlich über die geeigneten Geräusche und deren Timing entscheiden. Dieser schrittweise Prozess führt zu einer genaueren und kontextbewussteren Audiogenerierung.

Drei Hauptpunkte: 1) Die Verwendung von CoT-Reasoning für eine intelligentere Klangerzeugung. 2) Seine Interaktivität, die es Benutzern ermöglicht, Audio zu bearbeiten, sich auf bestimmte Objekte zu konzentrieren und den Klang mit natürlicher Sprache zu verfeinern. 3) Es wird von AudioCoT angetrieben, einem einzigartigen Datensatz, der speziell für das Training dieser Art von auf Schlussfolgerungen basierender Audiogenerierung entwickelt wurde.

Ja! Wir haben eine interaktive Demo auf Hugging Face Spaces bereitgestellt, die oben auf dieser Seite verlinkt ist. Sie können auch den Quellcode auf GitHub erkunden, um das Modell selbst auszuführen.