सार
जबकि आधुनिक एआई ने वीडियो से ऑडियो उत्पन्न करने में काफी प्रगति की है,
उच्च-निष्ठा वाली ध्वनि बनाना जो वास्तव में दृश्य सामग्री की बारीकियों से मेल खाती है,
एक बड़ी बाधा बनी हुई है। पेशेवर साउंड डिज़ाइन के लिए दृश्य संकेतों, ध्वनिकी और समय के बारे में
जटिल तर्क की आवश्यकता होती है - एक ऐसा कौशल जिसे एआई में दोहराना मुश्किल रहा है।
यह पेपर ThinkSound प्रस्तुत करता है, जो एक अभूतपूर्व ढाँचा है
जो एआई को एक साउंड डिज़ाइनर की तरह "सोचने" के लिए सिखाता है। चेन-ऑफ-थॉट (सीओटी) तर्क का उपयोग करके,
ThinkSound ऑडियो जनरेशन के जटिल कार्य को तार्किक, प्रबंधनीय चरणों में तोड़ता है।
यह न केवल खरोंच से ध्वनि बनाने की अनुमति देता है, बल्कि सरल प्राकृतिक भाषा आदेशों का उपयोग करके
इंटरैक्टिव, ऑब्जेक्ट-केंद्रित संपादन और शोधन के लिए भी अनुमति देता है।
इसे शक्ति देने के लिए, हम AudioCoT भी प्रस्तुत करते हैं, जो
इस तर्क प्रक्रिया पर मॉडल को प्रशिक्षित करने के लिए डिज़ाइन किया गया अपनी तरह का पहला डेटासेट है।
हमारे प्रयोगों से पता चलता है कि ThinkSound ऑडियो गुणवत्ता और प्रासंगिकता दोनों में एक नया
अत्याधुनिक मानक स्थापित करता है, जो जटिल, आउट-ऑफ-डिस्ट्रीब्यूशन मूवी दृश्यों पर भी
असाधारण रूप से अच्छा प्रदर्शन करता है।
वीडियो जनरेशन मॉडल के साथ तालमेल
ThinkSound प्रमुख जनरेटिव मॉडल द्वारा बनाए गए वीडियो में समृद्ध, सिंक्रनाइज़्ड साउंडस्केप को सहजता से जोड़ता है। नीचे दिए गए वीडियो उनके संबंधित मॉडल द्वारा उत्पन्न किए गए थे; सभी ऑडियो ThinkSound द्वारा बनाए गए थे।
Veo + ThinkSound
Sora + ThinkSound
MovieGen + ThinkSound
VGGSound पर V2A तुलना (इन-डिस्ट्रीब्यूशन)
वीडियो लोड करने और चलाने के लिए किसी भी थंबनेल पर क्लिक करें, ThinkSound की तुलना अन्य मॉडलों से करें।
CoT | ग्राउंड ट्रुथ | ThinkSound | MMAudio | See&Hear |
---|---|---|---|---|
टेनिस खेलना टेनिस रैकेट से टकराने और गेंद के उछलने की आवाज़ उत्पन्न करें... | ![]() | ![]() | ![]() | ![]() |
प्रिंटर प्रिंटिंग आवधिक बीप के साथ एक सतत प्रिंटर प्रिंटिंग ध्वनि उत्पन्न करें... | ![]() | ![]() | ![]() | ![]() |
कागज फाड़ना कागज फाड़े जाने की एक सूक्ष्म फाड़ ध्वनि के साथ शुरू करें... | ![]() | ![]() | ![]() | ![]() |
सिलाई मशीनों का उपयोग करना लगातार सिलाई मशीन की गुनगुनाहट के साथ परिवेशी सिलाई कमरे की आवाज़ उत्पन्न करें... | ![]() | ![]() | ![]() | ![]() |
MovieGen ऑडियो पर V2A तुलना (आउट-ऑफ-डिस्ट्रीब्यूशन)
देखें कि ThinkSound चुनौतीपूर्ण, आउट-ऑफ-डिस्ट्रीब्यूशन मूवी क्लिप पर कैसा प्रदर्शन करता है।
CoT | ThinkSound | Movie Gen Audio | MMAudio |
---|---|---|---|
कोमल चूसने की आवाज़ हल्के पैसिफायर चूसने की नरम, स्थिर पृष्ठभूमि... | ![]() | ![]() | ![]() |
सुरीले तार ध्वनिक गिटार के तार गुनगुनाते और भिनभिनाते हुए... | ![]() | ![]() | ![]() |
पुराने टीवी की गुनगुनाहट हल्के स्थैतिक और सफेद शोर के साथ परिवेशी पृष्ठभूमि शोर... | ![]() | ![]() | ![]() |
तीव्र गड़गड़ाहट एक कम हवा की गुनगुनाहट और कभी-कभी की कर्कश आवाज तूफानी माहौल में इजाफा करती है... | ![]() | ![]() | ![]() |
इंटरैक्टिव स्टेप-बाय-स्टेप फोली क्रिएशन
V2A जनरेशन → ऑब्जेक्ट-फोकस → ऑडियो इनपेंटिंग
V2A जनरेशन → ऑब्जेक्ट-फोकस → ऑडियो एडिटिंग
प्रयोग
VGGSound पर मुख्य परिणाम
ThinkSound अधिकांश वस्तुनिष्ठ मेट्रिक्स और सभी व्यक्तिपरक मेट्रिक्स में सभी बेसलाइनों से बेहतर प्रदर्शन करता है, जिससे ऑडियो गुणवत्ता और सिमेंटिक संरेखण में पर्याप्त सुधार होता है।
Method | Objective Metrics | Subjective Metrics | Efficiency | |||||||
---|---|---|---|---|---|---|---|---|---|---|
FD ↓ | KLPaSST ↓ | KLPaNNs ↓ | DeSync ↓ | CLAPcap ↑ | CLAPCoT ↑ | MOS-Q ↑ | MOS-A ↑ | Params | Time(s) ↓ | |
GT | - | - | - | 0.55 | 0.28 | 0.45 | 4.37±0.21 | 4.56±0.19 | - | - |
See&Hear | 118.95 | 2.26 | 2.30 | 1.20 | 0.32 | 0.35 | 2.75±1.08 | 2.87±0.99 | 415M | 19.42 |
V-AURA† | 46.99 | 2.23 | 1.83 | 0.65 | 0.23 | 0.37 | 3.42±1.03 | 3.20±1.17 | 695M | 14.00 |
FoleyCrafter | 39.15 | 2.06 | 1.89 | 1.21 | 0.41 | 0.34 | 3.08±1.21 | 2.63±0.88 | 1.20B | 3.84 |
Frieren† | 74.96 | 2.55 | 2.64 | 1.00 | 0.37 | 0.34 | 3.27±1.11 | 2.95±1.09 | 159M | - |
V2A-Mapper† | 48.10 | 2.50 | 2.34 | 1.23 | 0.38 | 0.32 | 3.31±1.02 | 3.16±1.04 | 229M | - |
MMAudio | 43.26 | 1.65 | 1.40 | 0.44 | 0.31 | 0.40 | 3.84±0.89 | 3.97±0.82 | 1.03B | 3.01 |
ThinkSound | 34.56 | 1.52 | 1.32 | 0.46 | 0.33 | 0.46 | 4.02±0.73 | 4.18±0.79 | 1.30B | 1.07 |
w/o CoT Reasoning | 39.84 | 1.59 | 1.40 | 0.48 | 0.29 | 0.41 | 3.91±0.83 | 4.04±0.75 | 1.30B | 0.98 |
पृथक्करण अध्ययन
हमने अपने डिजाइन विकल्पों की प्रभावशीलता को मान्य करने के लिए प्रत्येक घटक के योगदान की जांच की, जिसमें टेक्स्ट एन्कोडिंग और मल्टी-मोडल एकीकरण पर ध्यान केंद्रित किया गया।
टेक्स्ट एन्कोडिंग रणनीतियाँ
Method | FD ↓ | KLPaSST ↓ | KLPaNNs ↓ | DeSync ↓ | CLAP ↑ |
---|---|---|---|---|---|
CLIP | 39.84 | 1.59 | 1.40 | 0.48 | 0.41 |
T5 (CoT) | 37.65 | 1.54 | 1.35 | 0.46 | 0.44 |
CLIP + T5 | 34.56 | 1.52 | 1.32 | 0.46 | 0.46 |
मल्टी-मोडल एकीकरण
Integration | FD ↓ | KLPaSST ↓ | KLPaNNs ↓ | DeSync ↓ | CLAP ↑ |
---|---|---|---|---|---|
audio only | 37.13 | 1.58 | 1.37 | 0.50 | 0.43 |
linear video | 38.96 | 1.58 | 1.38 | 0.46 | 0.45 |
gated video | 34.56 | 1.52 | 1.32 | 0.46 | 0.46 |
मॉडल आकार का प्रभाव
Size | FD ↓ | KLPaSST ↓ | KLPaNNs ↓ | DeSync ↓ | CLAPCoT ↑ |
---|---|---|---|---|---|
Small | 40.80 | 1.64 | 1.38 | 0.46 | 0.41 |
Medium | 36.80 | 1.56 | 1.34 | 0.46 | 0.44 |
Large | 34.56 | 1.52 | 1.32 | 0.46 | 0.46 |
अक्सर पूछे जाने वाले प्रश्न
ThinkSound वीडियो के लिए ऑडियो उत्पन्न और संपादित करने के लिए डिज़ाइन किया गया एक उन्नत AI ढाँचा है। पारंपरिक मॉडलों के विपरीत, यह एक वीडियो के संदर्भ को समझने और एक पेशेवर साउंड डिज़ाइनर की तरह अत्यधिक प्रासंगिक, उच्च-गुणवत्ता वाली ध्वनि बनाने के लिए चेन-ऑफ-थॉट (CoT) नामक एक तर्क प्रक्रिया का उपयोग करता है।
चेन-ऑफ-थॉट मॉडल को एक जटिल कार्य ("इस वीडियो के लिए एक साउंडट्रैक बनाएं" जैसे) को छोटे, तार्किक चरणों में तोड़ने की अनुमति देता है। उदाहरण के लिए, यह पहले मुख्य वस्तुओं और क्रियाओं की पहचान कर सकता है, फिर पर्यावरण की ध्वनिकी के बारे में तर्क कर सकता है, और अंत में उपयुक्त ध्वनियों और उनके समय पर निर्णय ले सकता है। यह चरण-दर-चरण प्रक्रिया अधिक सटीक और प्रासंगिक रूप से जागरूक ऑडियो पीढ़ी की ओर ले जाती है।
तीन मुख्य बातें: 1) अधिक बुद्धिमान ध्वनि निर्माण के लिए इसका CoT तर्क का उपयोग। 2) इसकी अन्तरक्रियाशीलता, जो उपयोगकर्ताओं को ऑडियो संपादित करने, विशिष्ट वस्तुओं पर ध्यान केंद्रित करने और प्राकृतिक भाषा का उपयोग करके ध्वनि को परिष्कृत करने की अनुमति देती है। 3) यह AudioCoT द्वारा संचालित है, जो इस तरह की तर्क-आधारित ऑडियो पीढ़ी के प्रशिक्षण के लिए विशेष रूप से बनाया गया एक अनूठा डेटासेट है।
हाँ! हमने इस पृष्ठ के शीर्ष पर लिंक किए गए हगिंग फेस स्पेसेस पर एक इंटरैक्टिव डेमो प्रदान किया है। आप मॉडल को स्वयं चलाने के लिए GitHub पर स्रोत कोड का भी पता लगा सकते हैं।