ThinkSound

透過思維鏈推理開創音訊生成與編輯

摘要


雖然現代人工智慧在從影片生成音訊方面取得了巨大進展, 但創建真正符合視覺內容細微差別的高保真聲音仍然是一個主要障礙。 專業的音效設計需要對視覺線索、聲學和時機進行複雜的推理——這項技能在人工智慧中很難複製。

本文介紹了ThinkSound,這是一個開創性的框架, 教人工智慧像音效設計師一樣「思考」。透過使用思維鏈(CoT)推理, ThinkSound將複雜的音訊生成任務分解為合乎邏輯、易於管理的步驟。 這不僅可以從頭開始創建聲音,還可以使用簡單的自然語言命令進行互動式、 以物件為中心的編輯和優化。為了支援這一點,我們還提出了AudioCoT, 這是首個為此類推理過程訓練模型而設計的資料集。 我們的實驗表明,ThinkSound在音訊品質和相關性方面都樹立了新的技術水平, 即使在複雜的、分佈之外的電影場景中也表現出色。

與影片生成模型的協同作用


ThinkSound無縫地為領先的生成模型創建的影片添加豐富、同步的音景。以下影片由其各自的模型生成;所有音訊均由ThinkSound創建。

Veo + ThinkSound

Sora + ThinkSound

MovieGen + ThinkSound

在VGGSound上的V2A比較(分佈內)


點擊任何縮圖以載入和播放影片,將ThinkSound與其他模型進行比較。

CoT真實情況ThinkSoundMMAudioSee&Hear
打網球
生成網球拍擊球和球彈跳的聲音...
Video thumbnail for 真實情況
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
印表機列印
生成帶有週期性蜂鳴聲的連續印表機列印聲...
Video thumbnail for 真實情況
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
撕紙
從紙張被撕開的細微撕裂聲開始...
Video thumbnail for 真實情況
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
使用縫紉機
生成帶有持續縫紉機嗡嗡聲的環境縫紉室聲音...
Video thumbnail for 真實情況
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
演奏邦哥鼓
生成一個活潑的打擊樂曲目,僅包含有節奏的鼓點...
Video thumbnail for 真實情況
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
切菜
生成與切肉或蔬菜一致的有節奏的切菜聲...
Video thumbnail for 真實情況
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
人們吃薯片
生成專注於清晰、有節奏的咀嚼聲的音訊...
Video thumbnail for 真實情況
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear

在MovieGen Audio上的V2A比較(分佈外)


了解ThinkSound在具有挑戰性的、分佈之外的電影剪輯上的表現。

CoTThinkSoundMovie Gen AudioMMAudio
輕柔的吸吮聲
輕柔、穩定的奶嘴吸吮背景聲...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
和諧的弦樂
原聲吉他弦的嗡嗡聲和蜂鳴聲...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
舊電視的嗡嗡聲
帶有微弱靜電和白噪音的環境背景噪音...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
強烈的雷聲
低沉的風聲和偶爾的噼啪聲增添了暴風雨的氣氛...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
高亢的刮擦聲
工具在金屬桿上發出的高亢、持續的刮擦聲...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
叮噹作響的金屬鑰匙
老式打字機的有節奏的聲音,專注於清脆的金屬叮噹聲...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
滑板磨擦
在堅硬表面上穩定滾動,伴有尖銳的刮擦和磨擦聲...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio

互動式分步擬音創作


V2A生成 → 物件聚焦 → 音訊修復

生成一段歡快的烏克麗麗旋律,伴隨著兩個小女孩一起唱歌的輕快彈奏與和諧歌聲。
生成的音訊(與無聲影片配對):
現在,只關注選定區域內的歌唱和手部動作。
為選定物件生成的音訊:
修復此音訊剪輯中被遮蔽(有噪聲)的片段。 Audio Spectrogram with masked region
修復後的音訊: Repaired Audio Spectrogram

V2A生成 → 物件聚焦 → 音訊編輯

生成帶有持續鶯鳥鳴叫的輕柔風聲。
生成的音訊(與無聲影片配對):
專注於鳥兒,減少風噪聲,使鳴叫聲清脆悅耳。
為選定物件生成的音訊:
保持鶯鳥的鳴叫,並偶爾加入知更鳥的叫聲作為對比。 Original Audio Spectrogram
編輯後的音訊: Edited Audio Spectrogram

實驗


在VGGSound上的主要結果

ThinkSound在大多數客觀指標和所有主觀指標上均優於所有基準,在音訊品質和語義對齊方面取得了顯著的改進。

表1:我們的ThinkSound基礎模型的比較...
MethodObjective MetricsSubjective MetricsEfficiency
FD
KLPaSSTKLPaNNsDeSync ↓CLAPcapCLAPCoTMOS-Q
MOS-A ↑ParamsTime(s) ↓
GT---0.550.280.454.37±0.214.56±0.19--
See&Hear118.952.262.301.200.320.352.75±1.082.87±0.99415M19.42
V-AURA†46.992.231.830.650.230.373.42±1.033.20±1.17695M14.00
FoleyCrafter39.152.061.891.210.410.343.08±1.212.63±0.881.20B3.84
Frieren†74.962.552.641.000.370.343.27±1.112.95±1.09159M-
V2A-Mapper†48.102.502.341.230.380.323.31±1.023.16±1.04229M-
MMAudio43.261.651.400.440.310.403.84±0.893.97±0.821.03B3.01
ThinkSound34.561.521.320.460.330.464.02±0.734.18±0.791.30B1.07
w/o CoT Reasoning39.841.591.400.480.290.413.91±0.834.04±0.751.30B0.98

消融研究

我們研究了每個組件的貢獻,以驗證我們設計選擇的有效性,重點關注文本編碼和多模態整合。

文本編碼策略

表2:文本編碼器融合策略的比較...
MethodFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
CLIP39.841.591.400.480.41
T5 (CoT)37.651.541.350.460.44
CLIP + T534.561.521.320.460.46

多模態整合

表3:多模態整合機制的比較
IntegrationFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
audio only37.131.581.370.500.43
linear video38.961.581.380.460.45
gated video34.561.521.320.460.46

模型大小的影響

表4:模型大小結果的影響。
SizeFD ↓KLPaSSTKLPaNNsDeSync ↓CLAPCoT
Small40.801.641.380.460.41
Medium36.801.561.340.460.44
Large34.561.521.320.460.46

常見問題


ThinkSound是一個先進的人工智慧框架,旨在為影片生成和編輯音訊。與傳統模型不同,它使用一種稱為思維鏈(CoT)的推理過程來理解影片的上下文,並像專業音效設計師一樣創建高度相關、高品質的聲音。

思維鏈允許模型將複雜的任務(如「為此影片創建配樂」)分解為更小、更合乎邏輯的步驟。例如,它可能首先識別主要物件和動作,然後對環境的聲學進行推理,最後決定適當的聲音及其時機。這種循序漸進的過程可以實現更準確、更具上下文感知能力的音訊生成。

主要有三點:1)它使用CoT推理進行更智能的聲音創作。2)它的互動性,允許使用者使用自然語言編輯音訊、專注於特定物件並優化聲音。3)它由AudioCoT提供支援,這是一個專門為訓練這種基於推理的音訊生成而構建的獨特資料集。

可以!我們在此頁面頂部連結的Hugging Face Spaces上提供了互動式演示。您還可以在GitHub上探索原始碼以自行運行模型。