ThinkSound

思考の連鎖(Chain-of-Thought)推論による先進的な音声生成と編集

概要


現代のAIはビデオからの音声生成で大きな進歩を遂げましたが、 視覚コンテンツのニュアンスに真に一致する高忠実度のサウンドを作成することは依然として大きな課題です。 プロのサウンドデザインには、視覚的な手がかり、音響、タイミングに関する複雑な推論が必要であり、 これはAIで再現するのが困難なスキルでした。

この論文では、AIにサウンドデザイナーのように「考える」ことを教える画期的なフレームワーク ThinkSoundを紹介します。思考の連鎖(CoT)推論を使用することで、 ThinkSoundは音声生成の複雑なタスクを論理的で管理可能なステップに分解します。 これにより、ゼロからサウンドを作成するだけでなく、簡単な自然言語コマンドを使用して 対話的でオブジェクトに焦点を当てた編集と洗練が可能になります。 これを実現するために、この推論プロセスでモデルをトレーニングするために設計された 初のデータセットであるAudioCoTも提示します。 私たちの実験は、ThinkSoundが音質と関連性の両方で新たな最先端技術を確立し、 複雑で分布外の映画シーンでも非常に優れたパフォーマンスを発揮することを示しています。

ビデオ生成モデルとの相乗効果


ThinkSoundは、主要な生成モデルによって作成されたビデオに、豊かで同期したサウンドスケープをシームレスに追加します。以下のビデオはそれぞれのモデルによって生成されたもので、すべての音声はThinkSoundによって作成されました。

Veo + ThinkSound

Sora + ThinkSound

MovieGen + ThinkSound

VGGSoundでのV2A比較(分布内)


サムネイルをクリックしてビデオを読み込み、再生し、ThinkSoundを他のモデルと比較します。

CoTグラウンドトゥルースThinkSoundMMAudioSee&Hear
テニスをする
テニスラケットにボールが当たる音とボールが跳ねる音を生成...
Video thumbnail for グラウンドトゥルース
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
プリンターの印刷
定期的なビープ音とともに連続的なプリンターの印刷音を生成...
Video thumbnail for グラウンドトゥルース
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
紙を破る
紙が破られる微妙な引き裂き音から始める...
Video thumbnail for グラウンドトゥルース
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
ミシンの使用
一貫したミシンのハミング音で環境の裁縫室の音を生成...
Video thumbnail for グラウンドトゥルース
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
ボンゴを演奏する
リズミカルなドラムビートのみを特徴とする活気のあるパーカッショントラックを生成...
Video thumbnail for グラウンドトゥルース
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
食べ物を刻む
肉や野菜を切るのと一致するリズミカルな刻み音を生成...
Video thumbnail for グラウンドトゥルース
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
ポテトチップスを食べる人々
クリアでリズミカルな咀嚼音に焦点を当てた音声を生成...
Video thumbnail for グラウンドトゥルース
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear

MovieGen AudioでのV2A比較(分布外)


ThinkSoundが挑戦的で分布外の映画クリップでどのように機能するかをご覧ください。

CoTThinkSoundMovie Gen AudioMMAudio
穏やかな吸う音
軽くおしゃぶりを吸う柔らかく安定した背景音...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
調和のとれた弦楽器
アコースティックギターの弦がハミングし、ブンブン鳴る...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
古いテレビのハミング
かすかな静電気とホワイトノイズのある環境背景ノイズ...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
激しい雷
低い風のハミングと時折のパチパチという音が嵐の雰囲気を増す...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
高音の削り音
金属棒の上の工具の高音で持続的な削り音...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
ガタガタ鳴る金属の鍵
古いタイプライターのリズミカルな音、鋭い金属的なガタガタ音に焦点を当てる...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
スケートボードのグラインド
硬い表面での安定したローリング、鋭い削り音とグラインド音...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio

対話的なステップバイステップのフォーリー作成


V2A生成 → オブジェクトフォーカス → 音声インペインティング

2人の若い女の子が一緒に歌う、軽いストラミングと調和のとれたボーカルで陽気なウクレレのメロディーを生成します。
生成された音声(無音ビデオとペアリング):
さて、選択した領域の歌と手の動きだけに焦点を当てます。
選択したオブジェクトに対して生成された音声:
このオーディオクリップのマスクされた(ノイズの多い)セグメントを修復します。 Audio Spectrogram with masked region
修復された音声: Repaired Audio Spectrogram

V2A生成 → オブジェクトフォーカス → 音声編集

一貫したウグイスのさえずりで穏やかな風の音を生成します。
生成された音声(無音ビデオとペアリング):
鳥に焦点を合わせ、風のノイズを減らし、さえずりをくっきりとクリアにします。
選択したオブジェクトに対して生成された音声:
ウグイスのさえずりを維持し、対照的に時折コマドリの鳴き声を追加します。 Original Audio Spectrogram
編集された音声: Edited Audio Spectrogram

実験


VGGSoundでの主な結果

ThinkSoundは、ほとんどの客観的指標とすべての主観的指標で、すべてのベースラインを上回り、音質と意味的整合性で大幅な改善を達成しています。

表1:ThinkSound基盤モデルの比較...
MethodObjective MetricsSubjective MetricsEfficiency
FD
KLPaSSTKLPaNNsDeSync ↓CLAPcapCLAPCoTMOS-Q
MOS-A ↑ParamsTime(s) ↓
GT---0.550.280.454.37±0.214.56±0.19--
See&Hear118.952.262.301.200.320.352.75±1.082.87±0.99415M19.42
V-AURA†46.992.231.830.650.230.373.42±1.033.20±1.17695M14.00
FoleyCrafter39.152.061.891.210.410.343.08±1.212.63±0.881.20B3.84
Frieren†74.962.552.641.000.370.343.27±1.112.95±1.09159M-
V2A-Mapper†48.102.502.341.230.380.323.31±1.023.16±1.04229M-
MMAudio43.261.651.400.440.310.403.84±0.893.97±0.821.03B3.01
ThinkSound34.561.521.320.460.330.464.02±0.734.18±0.791.30B1.07
w/o CoT Reasoning39.841.591.400.480.290.413.91±0.834.04±0.751.30B0.98

アブレーション研究

テキストエンコーディングとマルチモーダル統合に焦点を当て、設計選択の有効性を検証するために各コンポーネントの貢献を調査しました。

テキストエンコーディング戦略

表2:テキストエンコーダ融合戦略の比較...
MethodFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
CLIP39.841.591.400.480.41
T5 (CoT)37.651.541.350.460.44
CLIP + T534.561.521.320.460.46

マルチモーダル統合

表3:マルチモーダル統合メカニズムの比較
IntegrationFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
audio only37.131.581.370.500.43
linear video38.961.581.380.460.45
gated video34.561.521.320.460.46

モデルサイズの影響

表4:モデルサイズの結果の影響。
SizeFD ↓KLPaSSTKLPaNNsDeSync ↓CLAPCoT
Small40.801.641.380.460.41
Medium36.801.561.340.460.44
Large34.561.521.320.460.46

よくある質問


ThinkSoundは、ビデオ用の音声を生成および編集するために設計された高度なAIフレームワークです。従来のモデルとは異なり、思考の連鎖(CoT)と呼ばれる推論プロセスを使用してビデオのコンテキストを理解し、プロのサウンドデザイナーのように、関連性が高く高品質のサウンドを作成します。

思考の連鎖により、モデルは複雑なタスク(「このビデオのサウンドトラックを作成する」など)をより小さく論理的なステップに分解できます。たとえば、最初に主要なオブジェクトとアクションを特定し、次に環境の音響について推論し、最後に適切なサウンドとそのタイミングを決定します。このステップバイステップのプロセスにより、より正確で文脈を意識した音声生成が可能になります。

主な3つの点:1)よりインテリジェントなサウンド作成のためのCoT推論の使用。2)ユーザーが音声を編集し、特定のオブジェクトに焦点を合わせ、自然言語を使用してサウンドを洗練できる対話性。3)この種の推論ベースの音声生成をトレーニングするために特別に構築された独自のデータセットであるAudioCoTを搭載していること。

はい!このページの上部にあるHugging Face Spacesでインタラクティブなデモを提供しています。また、GitHubでソースコードを調べて、自分でモデルを実行することもできます。