ThinkSound

चेन-ऑफ-थॉट रीजनिंग के साथ ऑडियो जनरेशन और एडिटिंग में अग्रणी

सार


जबकि आधुनिक एआई ने वीडियो से ऑडियो उत्पन्न करने में काफी प्रगति की है, उच्च-निष्ठा वाली ध्वनि बनाना जो वास्तव में दृश्य सामग्री की बारीकियों से मेल खाती है, एक बड़ी बाधा बनी हुई है। पेशेवर साउंड डिज़ाइन के लिए दृश्य संकेतों, ध्वनिकी और समय के बारे में जटिल तर्क की आवश्यकता होती है - एक ऐसा कौशल जिसे एआई में दोहराना मुश्किल रहा है।

यह पेपर ThinkSound प्रस्तुत करता है, जो एक अभूतपूर्व ढाँचा है जो एआई को एक साउंड डिज़ाइनर की तरह "सोचने" के लिए सिखाता है। चेन-ऑफ-थॉट (सीओटी) तर्क का उपयोग करके, ThinkSound ऑडियो जनरेशन के जटिल कार्य को तार्किक, प्रबंधनीय चरणों में तोड़ता है। यह न केवल खरोंच से ध्वनि बनाने की अनुमति देता है, बल्कि सरल प्राकृतिक भाषा आदेशों का उपयोग करके इंटरैक्टिव, ऑब्जेक्ट-केंद्रित संपादन और शोधन के लिए भी अनुमति देता है। इसे शक्ति देने के लिए, हम AudioCoT भी प्रस्तुत करते हैं, जो इस तर्क प्रक्रिया पर मॉडल को प्रशिक्षित करने के लिए डिज़ाइन किया गया अपनी तरह का पहला डेटासेट है। हमारे प्रयोगों से पता चलता है कि ThinkSound ऑडियो गुणवत्ता और प्रासंगिकता दोनों में एक नया अत्याधुनिक मानक स्थापित करता है, जो जटिल, आउट-ऑफ-डिस्ट्रीब्यूशन मूवी दृश्यों पर भी असाधारण रूप से अच्छा प्रदर्शन करता है।

वीडियो जनरेशन मॉडल के साथ तालमेल


ThinkSound प्रमुख जनरेटिव मॉडल द्वारा बनाए गए वीडियो में समृद्ध, सिंक्रनाइज़्ड साउंडस्केप को सहजता से जोड़ता है। नीचे दिए गए वीडियो उनके संबंधित मॉडल द्वारा उत्पन्न किए गए थे; सभी ऑडियो ThinkSound द्वारा बनाए गए थे।

Veo + ThinkSound

Sora + ThinkSound

MovieGen + ThinkSound

VGGSound पर V2A तुलना (इन-डिस्ट्रीब्यूशन)


वीडियो लोड करने और चलाने के लिए किसी भी थंबनेल पर क्लिक करें, ThinkSound की तुलना अन्य मॉडलों से करें।

CoTग्राउंड ट्रुथThinkSoundMMAudioSee&Hear
टेनिस खेलना
टेनिस रैकेट से टकराने और गेंद के उछलने की आवाज़ उत्पन्न करें...
Video thumbnail for ग्राउंड ट्रुथ
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
प्रिंटर प्रिंटिंग
आवधिक बीप के साथ एक सतत प्रिंटर प्रिंटिंग ध्वनि उत्पन्न करें...
Video thumbnail for ग्राउंड ट्रुथ
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
कागज फाड़ना
कागज फाड़े जाने की एक सूक्ष्म फाड़ ध्वनि के साथ शुरू करें...
Video thumbnail for ग्राउंड ट्रुथ
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
सिलाई मशीनों का उपयोग करना
लगातार सिलाई मशीन की गुनगुनाहट के साथ परिवेशी सिलाई कमरे की आवाज़ उत्पन्न करें...
Video thumbnail for ग्राउंड ट्रुथ
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
बोंगो बजाना
केवल लयबद्ध ड्रम बीट्स की विशेषता वाला एक जीवंत टक्कर ट्रैक उत्पन्न करें...
Video thumbnail for ग्राउंड ट्रुथ
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
भोजन काटना
मांस या सब्जियों को काटने के अनुरूप लयबद्ध काटने की आवाज़ उत्पन्न करें...
Video thumbnail for ग्राउंड ट्रुथ
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
चिप्स खाते लोग
स्पष्ट, लयबद्ध चबाने की आवाज़ पर ध्यान केंद्रित करते हुए ऑडियो उत्पन्न करें...
Video thumbnail for ग्राउंड ट्रुथ
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear

MovieGen ऑडियो पर V2A तुलना (आउट-ऑफ-डिस्ट्रीब्यूशन)


देखें कि ThinkSound चुनौतीपूर्ण, आउट-ऑफ-डिस्ट्रीब्यूशन मूवी क्लिप पर कैसा प्रदर्शन करता है।

CoTThinkSoundMovie Gen AudioMMAudio
कोमल चूसने की आवाज़
हल्के पैसिफायर चूसने की नरम, स्थिर पृष्ठभूमि...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
सुरीले तार
ध्वनिक गिटार के तार गुनगुनाते और भिनभिनाते हुए...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
पुराने टीवी की गुनगुनाहट
हल्के स्थैतिक और सफेद शोर के साथ परिवेशी पृष्ठभूमि शोर...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
तीव्र गड़गड़ाहट
एक कम हवा की गुनगुनाहट और कभी-कभी की कर्कश आवाज तूफानी माहौल में इजाफा करती है...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
उच्च-स्वर वाली खरोंच
एक धातु की छड़ पर एक उपकरण की उच्च-स्वर वाली, निरंतर खरोंचने की आवाज...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
खड़खड़ाती धातु की चाबियाँ
एक पुराने टाइपराइटर की लयबद्ध ध्वनि, तेज धातु की खड़खड़ाहट पर ध्यान केंद्रित करते हुए...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
स्केटबोर्ड ग्राइंडिंग
एक कठोर सतह पर स्थिर रोलिंग, तेज खरोंच और पीसने की आवाज़ के साथ...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio

इंटरैक्टिव स्टेप-बाय-स्टेप फोली क्रिएशन


V2A जनरेशन → ऑब्जेक्ट-फोकस → ऑडियो इनपेंटिंग

दो युवा लड़कियों के एक साथ गाने की हल्की स्ट्रमिंग और सामंजस्यपूर्ण गायन के साथ एक हंसमुख गिटार राग उत्पन्न करें।
उत्पन्न ऑडियो (मूक वीडियो के साथ जोड़ा गया):
अब, चयनित क्षेत्र में केवल गायन और हाथ की हरकतों पर ध्यान केंद्रित करें।
चयनित वस्तु के लिए उत्पन्न ऑडियो:
इस ऑडियो क्लिप में नकाबपोश (शोर) खंड की मरम्मत करें। Audio Spectrogram with masked region
मरम्मत किया गया ऑडियो: Repaired Audio Spectrogram

V2A जनरेशन → ऑब्जेक्ट-फोकस → ऑडियो एडिटिंग

लगातार वार्बलर चहकने के साथ कोमल हवा की आवाज़ उत्पन्न करें।
उत्पन्न ऑडियो (मूक वीडियो के साथ जोड़ा गया):
पक्षी पर ध्यान केंद्रित करें, हवा का शोर कम करें, और चहकने को कुरकुरा और स्पष्ट करें।
चयनित वस्तु के लिए उत्पन्न ऑडियो:
वार्बलर चहकते रहें और कंट्रास्ट के लिए कभी-कभी रॉबिन कॉल जोड़ें। Original Audio Spectrogram
संपादित ऑडियो: Edited Audio Spectrogram

प्रयोग


VGGSound पर मुख्य परिणाम

ThinkSound अधिकांश वस्तुनिष्ठ मेट्रिक्स और सभी व्यक्तिपरक मेट्रिक्स में सभी बेसलाइनों से बेहतर प्रदर्शन करता है, जिससे ऑडियो गुणवत्ता और सिमेंटिक संरेखण में पर्याप्त सुधार होता है।

तालिका 1: हमारे ThinkSound फाउंडेशन मॉडल की तुलना...
MethodObjective MetricsSubjective MetricsEfficiency
FD
KLPaSSTKLPaNNsDeSync ↓CLAPcapCLAPCoTMOS-Q
MOS-A ↑ParamsTime(s) ↓
GT---0.550.280.454.37±0.214.56±0.19--
See&Hear118.952.262.301.200.320.352.75±1.082.87±0.99415M19.42
V-AURA†46.992.231.830.650.230.373.42±1.033.20±1.17695M14.00
FoleyCrafter39.152.061.891.210.410.343.08±1.212.63±0.881.20B3.84
Frieren†74.962.552.641.000.370.343.27±1.112.95±1.09159M-
V2A-Mapper†48.102.502.341.230.380.323.31±1.023.16±1.04229M-
MMAudio43.261.651.400.440.310.403.84±0.893.97±0.821.03B3.01
ThinkSound34.561.521.320.460.330.464.02±0.734.18±0.791.30B1.07
w/o CoT Reasoning39.841.591.400.480.290.413.91±0.834.04±0.751.30B0.98

पृथक्करण अध्ययन

हमने अपने डिजाइन विकल्पों की प्रभावशीलता को मान्य करने के लिए प्रत्येक घटक के योगदान की जांच की, जिसमें टेक्स्ट एन्कोडिंग और मल्टी-मोडल एकीकरण पर ध्यान केंद्रित किया गया।

टेक्स्ट एन्कोडिंग रणनीतियाँ

तालिका 2: टेक्स्ट एनकोडर फ्यूजन रणनीतियों की तुलना...
MethodFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
CLIP39.841.591.400.480.41
T5 (CoT)37.651.541.350.460.44
CLIP + T534.561.521.320.460.46

मल्टी-मोडल एकीकरण

तालिका 3: मल्टी-मोडल एकीकरण तंत्र की तुलना
IntegrationFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
audio only37.131.581.370.500.43
linear video38.961.581.380.460.45
gated video34.561.521.320.460.46

मॉडल आकार का प्रभाव

तालिका 4: मॉडल आकार के परिणामों का प्रभाव।
SizeFD ↓KLPaSSTKLPaNNsDeSync ↓CLAPCoT
Small40.801.641.380.460.41
Medium36.801.561.340.460.44
Large34.561.521.320.460.46

अक्सर पूछे जाने वाले प्रश्न


ThinkSound वीडियो के लिए ऑडियो उत्पन्न और संपादित करने के लिए डिज़ाइन किया गया एक उन्नत AI ढाँचा है। पारंपरिक मॉडलों के विपरीत, यह एक वीडियो के संदर्भ को समझने और एक पेशेवर साउंड डिज़ाइनर की तरह अत्यधिक प्रासंगिक, उच्च-गुणवत्ता वाली ध्वनि बनाने के लिए चेन-ऑफ-थॉट (CoT) नामक एक तर्क प्रक्रिया का उपयोग करता है।

चेन-ऑफ-थॉट मॉडल को एक जटिल कार्य ("इस वीडियो के लिए एक साउंडट्रैक बनाएं" जैसे) को छोटे, तार्किक चरणों में तोड़ने की अनुमति देता है। उदाहरण के लिए, यह पहले मुख्य वस्तुओं और क्रियाओं की पहचान कर सकता है, फिर पर्यावरण की ध्वनिकी के बारे में तर्क कर सकता है, और अंत में उपयुक्त ध्वनियों और उनके समय पर निर्णय ले सकता है। यह चरण-दर-चरण प्रक्रिया अधिक सटीक और प्रासंगिक रूप से जागरूक ऑडियो पीढ़ी की ओर ले जाती है।

तीन मुख्य बातें: 1) अधिक बुद्धिमान ध्वनि निर्माण के लिए इसका CoT तर्क का उपयोग। 2) इसकी अन्तरक्रियाशीलता, जो उपयोगकर्ताओं को ऑडियो संपादित करने, विशिष्ट वस्तुओं पर ध्यान केंद्रित करने और प्राकृतिक भाषा का उपयोग करके ध्वनि को परिष्कृत करने की अनुमति देती है। 3) यह AudioCoT द्वारा संचालित है, जो इस तरह की तर्क-आधारित ऑडियो पीढ़ी के प्रशिक्षण के लिए विशेष रूप से बनाया गया एक अनूठा डेटासेट है।

हाँ! हमने इस पृष्ठ के शीर्ष पर लिंक किए गए हगिंग फेस स्पेसेस पर एक इंटरैक्टिव डेमो प्रदान किया है। आप मॉडल को स्वयं चलाने के लिए GitHub पर स्रोत कोड का भी पता लगा सकते हैं।