ThinkSound

الريادة في توليد وتحرير الصوت باستخدام منطق سلسلة الأفكار

ملخص


بينما حقق الذكاء الاصطناعي الحديث خطوات كبيرة في توليد الصوت من الفيديو، لا يزال إنشاء صوت عالي الدقة يتطابق حقًا مع الفروق الدقيقة في المحتوى المرئي عقبة رئيسية. يتطلب تصميم الصوت الاحترافي استدلالًا معقدًا حول الإشارات المرئية والصوتيات والتوقيت - وهي مهارة كان من الصعب تكرارها في الذكاء الاصطناعي.

تقدم هذه الورقة ThinkSound، وهو إطار عمل رائد يعلم الذكاء الاصطناعي "التفكير" مثل مصمم الصوت. باستخدام استدلال سلسلة الأفكار (CoT)، يقوم ThinkSound بتقسيم المهمة المعقدة لتوليد الصوت إلى خطوات منطقية يمكن التحكم فيها. وهذا لا يسمح فقط بإنشاء الصوت من البداية ولكن أيضًا بالتحرير والتنقيح التفاعلي الذي يركز على الكائنات باستخدام أوامر لغة طبيعية بسيطة. لدعم ذلك، نقدم أيضًا AudioCoT، وهي مجموعة بيانات هي الأولى من نوعها مصممة لتدريب النماذج على عملية الاستدلال هذه. تظهر تجاربنا أن ThinkSound يضع معيارًا جديدًا في كل من جودة الصوت وملاءمته، ويؤدي أداءً جيدًا بشكل استثنائي حتى في مشاهد الأفلام المعقدة وغير الموزعة.

التآزر مع نماذج توليد الفيديو


يضيف ThinkSound بسلاسة مناظر صوتية غنية ومتزامنة إلى مقاطع الفيديو التي تم إنشاؤها بواسطة النماذج التوليدية الرائدة. تم إنشاء مقاطع الفيديو أدناه بواسطة نماذجها الخاصة ؛ تم إنشاء كل الصوت بواسطة ThinkSound.

Veo + ThinkSound

Sora + ThinkSound

MovieGen + ThinkSound

مقارنات V2A على VGGSound (داخل التوزيع)


انقر على أي صورة مصغرة لتحميل وتشغيل الفيديو ، ومقارنة ThinkSound بالنماذج الأخرى.

CoTالحقيقة الأساسيةThinkSoundMMAudioSee&Hear
لعب التنس
توليد أصوات مضرب التنس وهو يضرب الكرة والكرة ترتد...
Video thumbnail for الحقيقة الأساسية
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
طباعة الطابعة
توليد صوت طباعة طابعة مستمر مع أصوات صفير دورية...
Video thumbnail for الحقيقة الأساسية
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
تمزيق الورق
ابدأ بصوت تمزيق خفي للورق وهو يتمزق...
Video thumbnail for الحقيقة الأساسية
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
استخدام آلات الخياطة
توليد أصوات غرفة خياطة محيطة مع همهمة آلة خياطة متسقة...
Video thumbnail for الحقيقة الأساسية
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
عزف البونغو
توليد مسار إيقاعي حيوي يضم فقط إيقاعات طبول إيقاعية...
Video thumbnail for الحقيقة الأساسية
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
تقطيع الطعام
توليد أصوات تقطيع إيقاعية تتفق مع تقطيع اللحم أو الخضار...
Video thumbnail for الحقيقة الأساسية
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear
أشخاص يأكلون رقائق البطاطس
توليد صوت يركز على أصوات مضغ واضحة وإيقاعية...
Video thumbnail for الحقيقة الأساسية
Video thumbnail for ThinkSound
Video thumbnail for MMAudio
Video thumbnail for See&Hear

مقارنات V2A على MovieGen Audio (خارج التوزيع)


شاهد كيف يعمل ThinkSound على مقاطع أفلام صعبة وخارج التوزيع.

CoTThinkSoundMovie Gen AudioMMAudio
أصوات مص لطيفة
خلفية ناعمة وثابتة لمص مصاصة خفيف...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
أوتار متناغمة
أوتار الغيتار الصوتي تهمهم وتطن...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
همهمة تلفزيون قديم
ضوضاء خلفية محيطة مع كهرباء ساكنة خافتة وضوضاء بيضاء...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
رعد شديد
همهمة رياح منخفضة وفرقعة عرضية تضيف إلى الجو العاصف...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
كشط عالي النبرة
صوت كشط عالي النبرة ومستمر لأداة على قضيب معدني...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
قعقعة مفاتيح معدنية
صوت إيقاعي لآلة كاتبة قديمة ، مع التركيز على القعقعة المعدنية الحادة...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio
طحن لوح التزلج
تدحرج ثابت على سطح صلب ، مع أصوات كشط وطحن حادة...
Video thumbnail for ThinkSound
Video thumbnail for Movie Gen Audio
Video thumbnail for MMAudio

إنشاء فولي تفاعلي خطوة بخطوة


توليد V2A ← التركيز على الكائن ← إكمال الصوت

قم بتوليد لحن القيثارة المبهج مع عزف خفيف وغناء متناغم من فتاتين صغيرتين تغنيان معًا.
الصوت الذي تم إنشاؤه (مقترن بفيديو صامت):
الآن ، ركز فقط على الغناء وحركات اليد في المنطقة المحددة.
الصوت الذي تم إنشاؤه للكائن المحدد:
قم بإصلاح الجزء المقنع (الصاخب) في مقطع الصوت هذا. Audio Spectrogram with masked region
الصوت الذي تم إصلاحه: Repaired Audio Spectrogram

توليد V2A ← التركيز على الكائن ← تحرير الصوت

قم بتوليد أصوات رياح لطيفة مع زقزقة طائرهازج متسقة.
الصوت الذي تم إنشاؤه (مقترن بفيديو صامت):
ركز على الطائر ، وقلل من ضوضاء الرياح ، واجعل الزقزقة واضحة ونقية.
الصوت الذي تم إنشاؤه للكائن المحدد:
حافظ على زقزقة طائر الهازج وأضف نداء طائر أبو الحناء من حين لآخر للتباين. Original Audio Spectrogram
الصوت المحرر: Edited Audio Spectrogram

التجارب


النتائج الرئيسية على VGGSound

يتفوق ThinkSound على جميع خطوط الأساس عبر معظم المقاييس الموضوعية وجميع المقاييس الذاتية ، مما يحقق تحسينات كبيرة في جودة الصوت والمحاذاة الدلالية.

الجدول 1: مقارنة نموذج أساس ThinkSound الخاص بنا ...
MethodObjective MetricsSubjective MetricsEfficiency
FD
KLPaSSTKLPaNNsDeSync ↓CLAPcapCLAPCoTMOS-Q
MOS-A ↑ParamsTime(s) ↓
GT---0.550.280.454.37±0.214.56±0.19--
See&Hear118.952.262.301.200.320.352.75±1.082.87±0.99415M19.42
V-AURA†46.992.231.830.650.230.373.42±1.033.20±1.17695M14.00
FoleyCrafter39.152.061.891.210.410.343.08±1.212.63±0.881.20B3.84
Frieren†74.962.552.641.000.370.343.27±1.112.95±1.09159M-
V2A-Mapper†48.102.502.341.230.380.323.31±1.023.16±1.04229M-
MMAudio43.261.651.400.440.310.403.84±0.893.97±0.821.03B3.01
ThinkSound34.561.521.320.460.330.464.02±0.734.18±0.791.30B1.07
w/o CoT Reasoning39.841.591.400.480.290.413.91±0.834.04±0.751.30B0.98

دراسات الاستئصال

لقد قمنا بالتحقيق في مساهمة كل مكون للتحقق من فعالية خيارات التصميم لدينا ، مع التركيز على ترميز النص والتكامل متعدد الوسائط.

استراتيجيات ترميز النص

الجدول 2: مقارنة استراتيجيات دمج مشفر النص ...
MethodFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
CLIP39.841.591.400.480.41
T5 (CoT)37.651.541.350.460.44
CLIP + T534.561.521.320.460.46

التكامل متعدد الوسائط

الجدول 3: مقارنة آليات التكامل متعدد الوسائط
IntegrationFD ↓KLPaSSTKLPaNNsDeSync ↓CLAP ↑
audio only37.131.581.370.500.43
linear video38.961.581.380.460.45
gated video34.561.521.320.460.46

تأثير حجم النموذج

الجدول 4: تأثير نتائج حجم النموذج.
SizeFD ↓KLPaSSTKLPaNNsDeSync ↓CLAPCoT
Small40.801.641.380.460.41
Medium36.801.561.340.460.44
Large34.561.521.320.460.46

أسئلة مكررة


ThinkSound هو إطار عمل متقدم للذكاء الاصطناعي مصمم لتوليد وتحرير الصوت لمقاطع الفيديو. على عكس النماذج التقليدية ، فإنه يستخدم عملية استدلال تسمى سلسلة الأفكار (CoT) لفهم سياق الفيديو وإنشاء صوت عالي الجودة وملائم للغاية ، تمامًا كما يفعل مصمم الصوت المحترف.

تسمح سلسلة الأفكار للنموذج بتقسيم مهمة معقدة (مثل "إنشاء مسار صوتي لهذا الفيديو") إلى خطوات أصغر ومنطقية. على سبيل المثال ، قد تحدد أولاً الكائنات والإجراءات الرئيسية ، ثم تفكر في صوتيات البيئة ، وأخيرًا تقرر الأصوات المناسبة وتوقيتها. تؤدي هذه العملية خطوة بخطوة إلى توليد صوت أكثر دقة وإدراكًا للسياق.

ثلاثة أشياء رئيسية: 1) استخدامه لمنطق CoT لإنشاء صوت أكثر ذكاءً. 2) تفاعله ، مما يسمح للمستخدمين بتحرير الصوت والتركيز على كائنات معينة وتنقيح الصوت باستخدام اللغة الطبيعية. 3) يتم تشغيله بواسطة AudioCoT ، وهي مجموعة بيانات فريدة تم إنشاؤها خصيصًا لتدريب هذا النوع من توليد الصوت القائم على الاستدلال.

نعم! لقد قدمنا عرضًا تفاعليًا على Hugging Face Spaces ، مرتبطًا في الجزء العلوي من هذه الصفحة. يمكنك أيضًا استكشاف الكود المصدري على GitHub لتشغيل النموذج بنفسك.