ThinkSound

通过思维链推理开创音频生成与编辑

摘要


虽然现代人工智能在从视频生成音频方面取得了巨大进展, 但创建真正符合视觉内容细微差别的高保真声音仍然是一个主要障碍。 专业的音效设计需要对视觉线索、声学和时机进行复杂的推理——这项技能在人工智能中很难复制。

本文介绍了ThinkSound,这是一个开创性的框架, 教人工智能像音效设计师一样“思考”。通过使用思维链(CoT)推理, ThinkSound将复杂的音频生成任务分解为合乎逻辑、易于管理的步骤。 这不仅可以从头开始创建声音,还可以使用简单的自然语言命令进行交互式、 以对象为中心的编辑和优化。为了支持这一点,我们还提出了AudioCoT, 这是首个为此类推理过程训练模型而设计的数据集。 我们的实验表明,ThinkSound在音频质量和相关性方面都树立了新的技术水平, 即使在复杂的、分布之外的电影场景中也表现出色。

与视频生成模型的协同作用


ThinkSound无缝地为领先的生成模型创建的视频添加丰富、同步的音景。以下视频由其各自的模型生成;所有音频均由ThinkSound创建。

Veo + ThinkSound

Sora + ThinkSound

MovieGen + ThinkSound

在VGGSound上的V2A比较(分布内)


点击任何缩略图以加载和播放视频,将ThinkSound与其他模型进行比较。

CoT真实情况ThinkSoundMMAudioSee&Hear
打网球
生成网球拍击球和球弹跳的声音...
Video thumbnail for 真实情况
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
打印机打印
生成带有周期性蜂鸣声的连续打印机打印声...
Video thumbnail for 真实情况
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
撕纸
从纸张被撕开的细微撕裂声开始...
Video thumbnail for 真实情况
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
使用缝纫机
生成带有持续缝纫机嗡嗡声的环境缝纫室声音...
Video thumbnail for 真实情况
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
演奏邦戈鼓
生成一个活泼的打击乐曲目,仅包含有节奏的鼓点...
Video thumbnail for 真实情况
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
切菜
生成与切肉或蔬菜一致的有节奏的切菜声...
Video thumbnail for 真实情况
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
人们吃薯片
生成专注于清晰、有节奏的咀嚼声的音频...
Video thumbnail for 真实情况
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear

在MovieGen Audio上的V2A比较(分布外)


了解ThinkSound在具有挑战性的、分布之外的电影剪辑上的表现。

CoTThinkSoundMovie Gen AudioMMAudio
轻柔的吸吮声
轻柔、稳定的奶嘴吸吮背景声...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
和谐的弦乐
原声吉他弦的嗡嗡声和蜂鸣声...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
旧电视的嗡嗡声
带有微弱静电和白噪声的环境背景噪音...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
强烈的雷声
低沉的风声和偶尔的噼啪声增添了暴风雨的气氛...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
高亢的刮擦声
工具在金属杆上发出的高亢、持续的刮擦声...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
叮当作响的金属钥匙
老式打字机的有节奏的声音,专注于清脆的金属叮当声...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
滑板磨擦
在坚硬表面上稳定滚动,伴有尖锐的刮擦和磨擦声...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio

交互式分步拟音创作


V2A生成 → 对象聚焦 → 音频修复

生成一段欢快的尤克里里旋律,伴随着两个小女孩一起唱歌的轻快弹奏与和谐歌声。
生成的音频(与无声视频配对):
现在,只关注选定区域内的歌唱和手部动作。
为选定对象生成的音频:
修复此音频剪辑中被遮蔽(有噪声)的片段。 Audio Spectrogram with masked region
修复后的音频: Repaired Audio Spectrogram

V2A生成 → 对象聚焦 → 音频编辑

生成带有持续莺鸟鸣叫的轻柔风声。
生成的音频(与无声视频配对):
专注于鸟儿,减少风噪声,使鸣叫声清脆悦耳。
为选定对象生成的音频:
保持莺鸟的鸣叫,并偶尔加入知更鸟的叫声作为对比。 Original Audio Spectrogram
编辑后的音频: Edited Audio Spectrogram

实验


在VGGSound上的主要结果

ThinkSound在大多数客观指标和所有主观指标上均优于所有基线,在音频质量和语义对齐方面取得了显著的改进。

表1:我们的ThinkSound基础模型的比较...
MethodObjective MetricsSubjective MetricsEfficiency
FD
KLPaSSTKLPaNNsDeSync ↓CLAPcapCLAPCoTMOS-Q
MOS-A ↑ParamsTime(s) ↓
GT---0.550.280.454.37±0.214.56±0.19--
See&Hear118.952.262.301.200.320.352.75±1.082.87±0.99415M19.42
V-AURA†46.992.231.830.650.230.373.42±1.033.20±1.17695M14.00
FoleyCrafter39.152.061.891.210.410.343.08±1.212.63±0.881.20B3.84
Frieren†74.962.552.641.000.370.343.27±1.112.95±1.09159M-
V2A-Mapper†48.102.502.341.230.380.323.31±1.023.16±1.04229M-
MMAudio43.261.651.400.440.310.403.84±0.893.97±0.821.03B3.01
ThinkSound34.561.521.320.460.330.464.02±0.734.18±0.791.30B1.07
w/o CoT Reasoning39.841.591.400.480.290.413.91±0.834.04±0.751.30B0.98

消融研究

我们研究了每个组件的贡献,以验证我们设计选择的有效性,重点关注文本编码和多模态集成。

文本编码策略

表2:文本编码器融合策略的比较...
MethodFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
CLIP39.841.591.400.480.41
T5 (CoT)37.651.541.350.460.44
CLIP + T534.561.521.320.460.46

多模态集成

表3:多模态集成机制的比较
IntegrationFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
audio only37.131.581.370.500.43
linear video38.961.581.380.460.45
gated video34.561.521.320.460.46

模型大小的影响

表4:模型大小结果的影响。
SizeFD ↓KLPaSSTKLPaNNsDeSync ↓CLAPCoT
Small40.801.641.380.460.41
Medium36.801.561.340.460.44
Large34.561.521.320.460.46

常见问题


ThinkSound是一个先进的人工智能框架,旨在为视频生成和编辑音频。与传统模型不同,它使用一种称为思维链(CoT)的推理过程来理解视频的上下文,并像专业音效设计师一样创建高度相关、高质量的声音。

思维链允许模型将复杂的任务(如“为此视频创建配乐”)分解为更小、更合乎逻辑的步骤。例如,它可能首先识别主要对象和动作,然后对环境的声学进行推理,最后决定适当的声音及其时机。这种循序渐进的过程可以实现更准确、更具上下文感知能力的音频生成。

主要有三点:1)它使用CoT推理进行更智能的声音创作。2)它的交互性,允许用户使用自然语言编辑音频、专注于特定对象并优化声音。3)它由AudioCoT提供支持,这是一个专门为训练这种基于推理的音频生成而构建的独特数据集。

可以!我们在此页面顶部链接的Hugging Face Spaces上提供了交互式演示。您还可以在GitHub上探索源代码以自行运行模型。