ThinkSound

연쇄 사고 추론을 통한 오디오 생성 및 편집의 선구자

초록


현대 AI가 비디오에서 오디오를 생성하는 데 큰 발전을 이루었지만, 시각적 콘텐츠의 미묘한 차이를 진정으로 반영하는 고음질 사운드를 만드는 것은 여전히 큰 장애물입니다. 전문적인 사운드 디자인은 시각적 단서, 음향 및 타이밍에 대한 복잡한 추론을 필요로 하며, 이는 AI에서 복제하기 어려운 기술이었습니다.

이 논문은 AI에게 사운드 디자이너처럼 "생각"하도록 가르치는 획기적인 프레임워크인 ThinkSound를 소개합니다. 연쇄 사고(CoT) 추론을 사용하여 ThinkSound는 오디오 생성의 복잡한 작업을 논리적이고 관리 가능한 단계로 나눕니다. 이를 통해 처음부터 사운드를 생성할 뿐만 아니라 간단한 자연어 명령을 사용하여 대화형의 객체 중심 편집 및 개선이 가능합니다. 이를 지원하기 위해, 이 추론 과정에 대한 모델을 훈련시키기 위해 설계된 최초의 데이터셋인 AudioCoT도 제시합니다. 우리의 실험은 ThinkSound가 오디오 품질과 관련성 모두에서 새로운 최첨단 기술을 설정하고, 복잡하고 분포를 벗어난 영화 장면에서도 매우 뛰어난 성능을 보인다는 것을 보여줍니다.

비디오 생성 모델과의 시너지


ThinkSound는 선도적인 생성 모델로 만든 비디오에 풍부하고 동기화된 사운드스케이프를 원활하게 추가합니다. 아래 비디오는 각 모델에 의해 생성되었으며 모든 오디오는 ThinkSound에 의해 생성되었습니다.

Veo + ThinkSound

Sora + ThinkSound

MovieGen + ThinkSound

VGGSound에서의 V2A 비교 (분포 내)


썸네일을 클릭하여 비디오를 로드하고 재생하여 ThinkSound를 다른 모델과 비교하세요.

CoT실제값ThinkSoundMMAudioSee&Hear
테니스 치기
테니스 라켓에 공이 부딪히고 공이 튀는 소리 생성...
Video thumbnail for 실제값
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
프린터 인쇄
주기적인 신호음과 함께 연속적인 프린터 인쇄 소리 생성...
Video thumbnail for 실제값
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
종이 찢기
종이가 찢어지는 미세한 소리로 시작...
Video thumbnail for 실제값
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
재봉틀 사용
일관된 재봉틀 소음과 함께 주변 재봉실 소리 생성...
Video thumbnail for 실제값
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
봉고 연주
리드미컬한 드럼 비트만 특징으로 하는 활기찬 타악기 트랙 생성...
Video thumbnail for 실제값
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
음식 다지기
고기나 채소를 자르는 것과 일치하는 리드미컬한 다지는 소리 생성...
Video thumbnail for 실제값
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
감자칩 먹는 사람들
선명하고 리드미컬한 씹는 소리에 초점을 맞춘 오디오 생성...
Video thumbnail for 실제값
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear

MovieGen Audio에서의 V2A 비교 (분포 외)


ThinkSound가 어렵고 분포를 벗어난 영화 클립에서 어떻게 작동하는지 확인하세요.

CoTThinkSoundMovie Gen AudioMMAudio
부드러운 빠는 소리
가벼운 젖꼭지 빠는 소리의 부드럽고 꾸준한 배경음...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
조화로운 현악기
어쿠스틱 기타 현이 윙윙거리고 웅웅거리는 소리...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
오래된 TV 윙윙거림
희미한 정전기와 백색 소음이 있는 주변 배경 소음...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
강렬한 천둥
낮은 바람 소리와 가끔씩의 딱딱거리는 소리가 폭풍우 치는 분위기를 더합니다...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
고음의 긁는 소리
금속 막대 위 도구의 고음의 지속적인 긁는 소리...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
딸깍거리는 금속 키
오래된 타자기의 리드미컬한 소리, 날카로운 금속성 딸깍거림에 초점...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
스케이트보드 그라인딩
단단한 표면에서의 꾸준한 구르기, 날카로운 긁는 소리와 그라인딩 소리...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio

대화형 단계별 폴리 제작


V2A 생성 → 객체 초점 → 오디오 인페인팅

두 어린 소녀가 함께 노래하는 가벼운 스트러밍과 조화로운 보컬로 경쾌한 우쿨렐레 멜로디를 생성합니다.
생성된 오디오 (무음 비디오와 페어링):
이제 선택한 영역의 노래와 손 움직임에만 집중하세요.
선택한 객체에 대해 생성된 오디오:
이 오디오 클립에서 마스크된(잡음이 있는) 세그먼트를 복구합니다. Audio Spectrogram with masked region
복구된 오디오: Repaired Audio Spectrogram

V2A 생성 → 객체 초점 → 오디오 편집

일관된 개개비 지저귐과 함께 부드러운 바람 소리를 생성합니다.
생성된 오디오 (무음 비디오와 페어링):
새에 초점을 맞추고 바람 소리를 줄이고 지저귐을 선명하고 깨끗하게 만듭니다.
선택한 객체에 대해 생성된 오디오:
개개비 지저귐을 유지하고 대조를 위해 가끔 울새 소리를 추가합니다. Original Audio Spectrogram
편집된 오디오: Edited Audio Spectrogram

실험


VGGSound에 대한 주요 결과

ThinkSound는 대부분의 객관적 지표와 모든 주관적 지표에서 모든 기준선을 능가하며 오디오 품질과 의미론적 정렬에서 상당한 개선을 달성합니다.

표 1: ThinkSound 기반 모델 비교...
MethodObjective MetricsSubjective MetricsEfficiency
FD
KLPaSSTKLPaNNsDeSync ↓CLAPcapCLAPCoTMOS-Q
MOS-A ↑ParamsTime(s) ↓
GT---0.550.280.454.37±0.214.56±0.19--
See&Hear118.952.262.301.200.320.352.75±1.082.87±0.99415M19.42
V-AURA†46.992.231.830.650.230.373.42±1.033.20±1.17695M14.00
FoleyCrafter39.152.061.891.210.410.343.08±1.212.63±0.881.20B3.84
Frieren†74.962.552.641.000.370.343.27±1.112.95±1.09159M-
V2A-Mapper†48.102.502.341.230.380.323.31±1.023.16±1.04229M-
MMAudio43.261.651.400.440.310.403.84±0.893.97±0.821.03B3.01
ThinkSound34.561.521.320.460.330.464.02±0.734.18±0.791.30B1.07
w/o CoT Reasoning39.841.591.400.480.290.413.91±0.834.04±0.751.30B0.98

절제 연구

텍스트 인코딩 및 다중 모드 통합에 중점을 두고 설계 선택의 효율성을 검증하기 위해 각 구성 요소의 기여도를 조사했습니다.

텍스트 인코딩 전략

표 2: 텍스트 인코더 융합 전략 비교...
MethodFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
CLIP39.841.591.400.480.41
T5 (CoT)37.651.541.350.460.44
CLIP + T534.561.521.320.460.46

다중 모드 통합

표 3: 다중 모드 통합 메커니즘 비교
IntegrationFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
audio only37.131.581.370.500.43
linear video38.961.581.380.460.45
gated video34.561.521.320.460.46

모델 크기의 영향

표 4: 모델 크기 결과의 영향.
SizeFD ↓KLPaSSTKLPaNNsDeSync ↓CLAPCoT
Small40.801.641.380.460.41
Medium36.801.561.340.460.44
Large34.561.521.320.460.46

자주 묻는 질문


ThinkSound는 비디오용 오디오를 생성하고 편집하도록 설계된 고급 AI 프레임워크입니다. 기존 모델과 달리 연쇄 사고(CoT)라는 추론 과정을 사용하여 비디오의 맥락을 이해하고 전문 사운드 디자이너처럼 관련성이 높은 고품질 사운드를 생성합니다.

연쇄 사고를 통해 모델은 복잡한 작업("이 비디오의 사운드트랙 만들기"와 같은)을 더 작고 논리적인 단계로 나눌 수 있습니다. 예를 들어, 먼저 주요 객체와 동작을 식별한 다음 환경의 음향에 대해 추론하고 마지막으로 적절한 사운드와 타이밍을 결정합니다. 이 단계별 프로세스는 더 정확하고 맥락을 인식하는 오디오 생성으로 이어집니다.

주요 세 가지: 1) 더 지능적인 사운드 생성을 위한 CoT 추론 사용. 2) 사용자가 오디오를 편집하고 특정 객체에 초점을 맞추고 자연어를 사용하여 사운드를 다듬을 수 있는 상호 작용성. 3) 이러한 종류의 추론 기반 오디오 생성을 훈련시키기 위해 특별히 제작된 고유한 데이터셋인 AudioCoT로 구동된다는 점.

네! 이 페이지 상단에 링크된 Hugging Face Spaces에서 대화형 데모를 제공했습니다. GitHub에서 소스 코드를 탐색하여 직접 모델을 실행할 수도 있습니다.