ThinkSound

연쇄 사고 추론을 통한 오디오 생성 및 편집의 선구자

초록

현대 AI가 비디오에서 오디오를 생성하는 데 큰 발전을 이루었지만, 시각적 콘텐츠의 미묘한 차이를 진정으로 반영하는 고음질 사운드를 만드는 것은 여전히 큰 장애물입니다. 전문적인 사운드 디자인은 시각적 단서, 음향 및 타이밍에 대한 복잡한 추론을 필요로 하며, 이는 AI에서 복제하기 어려운 기술이었습니다.

이 논문은 AI에게 사운드 디자이너처럼 "생각"하도록 가르치는 획기적인 프레임워크인 ThinkSound를 소개합니다. 연쇄 사고(CoT) 추론을 사용하여 ThinkSound는 오디오 생성의 복잡한 작업을 논리적이고 관리 가능한 단계로 나눕니다. 이를 통해 처음부터 사운드를 생성할 뿐만 아니라 간단한 자연어 명령을 사용하여 대화형의 객체 중심 편집 및 개선이 가능합니다. 이를 지원하기 위해, 이 추론 과정에 대한 모델을 훈련시키기 위해 설계된 최초의 데이터셋인 AudioCoT도 제시합니다. 우리의 실험은 ThinkSound가 오디오 품질과 관련성 모두에서 새로운 최첨단 기술을 설정하고, 복잡하고 분포를 벗어난 영화 장면에서도 매우 뛰어난 성능을 보인다는 것을 보여줍니다.

비디오 생성 모델과의 시너지

ThinkSound는 선도적인 생성 모델로 만든 비디오에 풍부하고 동기화된 사운드스케이프를 원활하게 추가합니다. 아래 비디오는 각 모델에 의해 생성되었으며 모든 오디오는 ThinkSound에 의해 생성되었습니다.

Veo + ThinkSound

Sora + ThinkSound

MovieGen + ThinkSound

VGGSound에서의 V2A 비교 (분포 내)

썸네일을 클릭하여 비디오를 로드하고 재생하여 ThinkSound를 다른 모델과 비교하세요.

CoT	실제값	ThinkSound	MMAudio	See&Hear	V-AURA	Frieren	V2A-Mapper	FoleyCrafter
테니스 치기 테니스 라켓에 공이 부딪히고 공이 튀는 소리 생성...
프린터 인쇄 주기적인 신호음과 함께 연속적인 프린터 인쇄 소리 생성...
종이 찢기 종이가 찢어지는 미세한 소리로 시작...
재봉틀 사용 일관된 재봉틀 소음과 함께 주변 재봉실 소리 생성...
봉고 연주 리드미컬한 드럼 비트만 특징으로 하는 활기찬 타악기 트랙 생성...
음식 다지기 고기나 채소를 자르는 것과 일치하는 리드미컬한 다지는 소리 생성...
감자칩 먹는 사람들 선명하고 리드미컬한 씹는 소리에 초점을 맞춘 오디오 생성...

MovieGen Audio에서의 V2A 비교 (분포 외)

ThinkSound가 어렵고 분포를 벗어난 영화 클립에서 어떻게 작동하는지 확인하세요.

CoT	ThinkSound	Movie Gen Audio	MMAudio
부드러운 빠는 소리 가벼운 젖꼭지 빠는 소리의 부드럽고 꾸준한 배경음...
조화로운 현악기 어쿠스틱 기타 현이 윙윙거리고 웅웅거리는 소리...
오래된 TV 윙윙거림 희미한 정전기와 백색 소음이 있는 주변 배경 소음...
강렬한 천둥 낮은 바람 소리와 가끔씩의 딱딱거리는 소리가 폭풍우 치는 분위기를 더합니다...
고음의 긁는 소리 금속 막대 위 도구의 고음의 지속적인 긁는 소리...
딸깍거리는 금속 키 오래된 타자기의 리드미컬한 소리, 날카로운 금속성 딸깍거림에 초점...
스케이트보드 그라인딩 단단한 표면에서의 꾸준한 구르기, 날카로운 긁는 소리와 그라인딩 소리...

대화형 단계별 폴리 제작

V2A 생성 → 객체 초점 → 오디오 인페인팅

두 어린 소녀가 함께 노래하는 가벼운 스트러밍과 조화로운 보컬로 경쾌한 우쿨렐레 멜로디를 생성합니다.

생성된 오디오 (무음 비디오와 페어링):

이제 선택한 영역의 노래와 손 움직임에만 집중하세요.

선택한 객체에 대해 생성된 오디오:

이 오디오 클립에서 마스크된(잡음이 있는) 세그먼트를 복구합니다.

복구된 오디오:

V2A 생성 → 객체 초점 → 오디오 편집

일관된 개개비 지저귐과 함께 부드러운 바람 소리를 생성합니다.

생성된 오디오 (무음 비디오와 페어링):

새에 초점을 맞추고 바람 소리를 줄이고 지저귐을 선명하고 깨끗하게 만듭니다.

선택한 객체에 대해 생성된 오디오:

개개비 지저귐을 유지하고 대조를 위해 가끔 울새 소리를 추가합니다.

편집된 오디오:

실험

VGGSound에 대한 주요 결과

ThinkSound는 대부분의 객관적 지표와 모든 주관적 지표에서 모든 기준선을 능가하며 오디오 품질과 의미론적 정렬에서 상당한 개선을 달성합니다.

표 1: ThinkSound 기반 모델 비교...
Method	Objective Metrics						Subjective Metrics		Efficiency
	FD ↓	KL_PaSST ↓	KL_PaNNs ↓	DeSync ↓	CLAP_cap ↑	CLAP_CoT ↑	MOS-Q ↑	MOS-A ↑	Params	Time(s) ↓
GT	-	-	-	0.55	0.28	0.45	4.37±0.21	4.56±0.19	-	-
See&Hear	118.95	2.26	2.30	1.20	0.32	0.35	2.75±1.08	2.87±0.99	415M	19.42
V-AURA†	46.99	2.23	1.83	0.65	0.23	0.37	3.42±1.03	3.20±1.17	695M	14.00
FoleyCrafter	39.15	2.06	1.89	1.21	0.41	0.34	3.08±1.21	2.63±0.88	1.20B	3.84
Frieren†	74.96	2.55	2.64	1.00	0.37	0.34	3.27±1.11	2.95±1.09	159M	-
V2A-Mapper†	48.10	2.50	2.34	1.23	0.38	0.32	3.31±1.02	3.16±1.04	229M	-
MMAudio	43.26	1.65	1.40	0.44	0.31	0.40	3.84±0.89	3.97±0.82	1.03B	3.01
ThinkSound	34.56	1.52	1.32	0.46	0.33	0.46	4.02±0.73	4.18±0.79	1.30B	1.07
w/o CoT Reasoning	39.84	1.59	1.40	0.48	0.29	0.41	3.91±0.83	4.04±0.75	1.30B	0.98

절제 연구

텍스트 인코딩 및 다중 모드 통합에 중점을 두고 설계 선택의 효율성을 검증하기 위해 각 구성 요소의 기여도를 조사했습니다.

텍스트 인코딩 전략

표 2: 텍스트 인코더 융합 전략 비교...
Method	FD ↓	KL_PaSST ↓	KL_PaNNs ↓	DeSync ↓	CLAP ↑
CLIP	39.84	1.59	1.40	0.48	0.41
T5 (CoT)	37.65	1.54	1.35	0.46	0.44
CLIP + T5	34.56	1.52	1.32	0.46	0.46

다중 모드 통합

표 3: 다중 모드 통합 메커니즘 비교
Integration	FD ↓	KL_PaSST ↓	KL_PaNNs ↓	DeSync ↓	CLAP ↑
audio only	37.13	1.58	1.37	0.50	0.43
linear video	38.96	1.58	1.38	0.46	0.45
gated video	34.56	1.52	1.32	0.46	0.46

모델 크기의 영향

표 4: 모델 크기 결과의 영향.
Size	FD ↓	KL_PaSST ↓	KL_PaNNs ↓	DeSync ↓	CLAP_CoT ↑
Small	40.80	1.64	1.38	0.46	0.41
Medium	36.80	1.56	1.34	0.46	0.44
Large	34.56	1.52	1.32	0.46	0.46

자주 묻는 질문

ThinkSound는 비디오용 오디오를 생성하고 편집하도록 설계된 고급 AI 프레임워크입니다. 기존 모델과 달리 연쇄 사고(CoT)라는 추론 과정을 사용하여 비디오의 맥락을 이해하고 전문 사운드 디자이너처럼 관련성이 높은 고품질 사운드를 생성합니다.

연쇄 사고를 통해 모델은 복잡한 작업("이 비디오의 사운드트랙 만들기"와 같은)을 더 작고 논리적인 단계로 나눌 수 있습니다. 예를 들어, 먼저 주요 객체와 동작을 식별한 다음 환경의 음향에 대해 추론하고 마지막으로 적절한 사운드와 타이밍을 결정합니다. 이 단계별 프로세스는 더 정확하고 맥락을 인식하는 오디오 생성으로 이어집니다.

주요 세 가지: 1) 더 지능적인 사운드 생성을 위한 CoT 추론 사용. 2) 사용자가 오디오를 편집하고 특정 객체에 초점을 맞추고 자연어를 사용하여 사운드를 다듬을 수 있는 상호 작용성. 3) 이러한 종류의 추론 기반 오디오 생성을 훈련시키기 위해 특별히 제작된 고유한 데이터셋인 AudioCoT로 구동된다는 점.

네! 이 페이지 상단에 링크된 Hugging Face Spaces에서 대화형 데모를 제공했습니다. GitHub에서 소스 코드를 탐색하여 직접 모델을 실행할 수도 있습니다.