ThinkSound

الريادة في توليد وتحرير الصوت باستخدام منطق سلسلة الأفكار

ملخص

بينما حقق الذكاء الاصطناعي الحديث خطوات كبيرة في توليد الصوت من الفيديو، لا يزال إنشاء صوت عالي الدقة يتطابق حقًا مع الفروق الدقيقة في المحتوى المرئي عقبة رئيسية. يتطلب تصميم الصوت الاحترافي استدلالًا معقدًا حول الإشارات المرئية والصوتيات والتوقيت - وهي مهارة كان من الصعب تكرارها في الذكاء الاصطناعي.

تقدم هذه الورقة ThinkSound، وهو إطار عمل رائد يعلم الذكاء الاصطناعي "التفكير" مثل مصمم الصوت. باستخدام استدلال سلسلة الأفكار (CoT)، يقوم ThinkSound بتقسيم المهمة المعقدة لتوليد الصوت إلى خطوات منطقية يمكن التحكم فيها. وهذا لا يسمح فقط بإنشاء الصوت من البداية ولكن أيضًا بالتحرير والتنقيح التفاعلي الذي يركز على الكائنات باستخدام أوامر لغة طبيعية بسيطة. لدعم ذلك، نقدم أيضًا AudioCoT، وهي مجموعة بيانات هي الأولى من نوعها مصممة لتدريب النماذج على عملية الاستدلال هذه. تظهر تجاربنا أن ThinkSound يضع معيارًا جديدًا في كل من جودة الصوت وملاءمته، ويؤدي أداءً جيدًا بشكل استثنائي حتى في مشاهد الأفلام المعقدة وغير الموزعة.

التآزر مع نماذج توليد الفيديو

يضيف ThinkSound بسلاسة مناظر صوتية غنية ومتزامنة إلى مقاطع الفيديو التي تم إنشاؤها بواسطة النماذج التوليدية الرائدة. تم إنشاء مقاطع الفيديو أدناه بواسطة نماذجها الخاصة ؛ تم إنشاء كل الصوت بواسطة ThinkSound.

Veo + ThinkSound

Sora + ThinkSound

MovieGen + ThinkSound

مقارنات V2A على VGGSound (داخل التوزيع)

انقر على أي صورة مصغرة لتحميل وتشغيل الفيديو ، ومقارنة ThinkSound بالنماذج الأخرى.

CoT	الحقيقة الأساسية	ThinkSound	MMAudio	See&Hear	V-AURA	Frieren	V2A-Mapper	FoleyCrafter
لعب التنس توليد أصوات مضرب التنس وهو يضرب الكرة والكرة ترتد...
طباعة الطابعة توليد صوت طباعة طابعة مستمر مع أصوات صفير دورية...
تمزيق الورق ابدأ بصوت تمزيق خفي للورق وهو يتمزق...
استخدام آلات الخياطة توليد أصوات غرفة خياطة محيطة مع همهمة آلة خياطة متسقة...
عزف البونغو توليد مسار إيقاعي حيوي يضم فقط إيقاعات طبول إيقاعية...
تقطيع الطعام توليد أصوات تقطيع إيقاعية تتفق مع تقطيع اللحم أو الخضار...
أشخاص يأكلون رقائق البطاطس توليد صوت يركز على أصوات مضغ واضحة وإيقاعية...

مقارنات V2A على MovieGen Audio (خارج التوزيع)

شاهد كيف يعمل ThinkSound على مقاطع أفلام صعبة وخارج التوزيع.

CoT	ThinkSound	Movie Gen Audio	MMAudio
أصوات مص لطيفة خلفية ناعمة وثابتة لمص مصاصة خفيف...
أوتار متناغمة أوتار الغيتار الصوتي تهمهم وتطن...
همهمة تلفزيون قديم ضوضاء خلفية محيطة مع كهرباء ساكنة خافتة وضوضاء بيضاء...
رعد شديد همهمة رياح منخفضة وفرقعة عرضية تضيف إلى الجو العاصف...
كشط عالي النبرة صوت كشط عالي النبرة ومستمر لأداة على قضيب معدني...
قعقعة مفاتيح معدنية صوت إيقاعي لآلة كاتبة قديمة ، مع التركيز على القعقعة المعدنية الحادة...
طحن لوح التزلج تدحرج ثابت على سطح صلب ، مع أصوات كشط وطحن حادة...

إنشاء فولي تفاعلي خطوة بخطوة

توليد V2A ← التركيز على الكائن ← إكمال الصوت

قم بتوليد لحن القيثارة المبهج مع عزف خفيف وغناء متناغم من فتاتين صغيرتين تغنيان معًا.

الصوت الذي تم إنشاؤه (مقترن بفيديو صامت):

الآن ، ركز فقط على الغناء وحركات اليد في المنطقة المحددة.

الصوت الذي تم إنشاؤه للكائن المحدد:

قم بإصلاح الجزء المقنع (الصاخب) في مقطع الصوت هذا.

الصوت الذي تم إصلاحه:

توليد V2A ← التركيز على الكائن ← تحرير الصوت

قم بتوليد أصوات رياح لطيفة مع زقزقة طائرهازج متسقة.

الصوت الذي تم إنشاؤه (مقترن بفيديو صامت):

ركز على الطائر ، وقلل من ضوضاء الرياح ، واجعل الزقزقة واضحة ونقية.

الصوت الذي تم إنشاؤه للكائن المحدد:

حافظ على زقزقة طائر الهازج وأضف نداء طائر أبو الحناء من حين لآخر للتباين.

الصوت المحرر:

التجارب

النتائج الرئيسية على VGGSound

يتفوق ThinkSound على جميع خطوط الأساس عبر معظم المقاييس الموضوعية وجميع المقاييس الذاتية ، مما يحقق تحسينات كبيرة في جودة الصوت والمحاذاة الدلالية.

الجدول 1: مقارنة نموذج أساس ThinkSound الخاص بنا ...
Method	Objective Metrics						Subjective Metrics		Efficiency
	FD ↓	KL_PaSST ↓	KL_PaNNs ↓	DeSync ↓	CLAP_cap ↑	CLAP_CoT ↑	MOS-Q ↑	MOS-A ↑	Params	Time(s) ↓
GT	-	-	-	0.55	0.28	0.45	4.37±0.21	4.56±0.19	-	-
See&Hear	118.95	2.26	2.30	1.20	0.32	0.35	2.75±1.08	2.87±0.99	415M	19.42
V-AURA†	46.99	2.23	1.83	0.65	0.23	0.37	3.42±1.03	3.20±1.17	695M	14.00
FoleyCrafter	39.15	2.06	1.89	1.21	0.41	0.34	3.08±1.21	2.63±0.88	1.20B	3.84
Frieren†	74.96	2.55	2.64	1.00	0.37	0.34	3.27±1.11	2.95±1.09	159M	-
V2A-Mapper†	48.10	2.50	2.34	1.23	0.38	0.32	3.31±1.02	3.16±1.04	229M	-
MMAudio	43.26	1.65	1.40	0.44	0.31	0.40	3.84±0.89	3.97±0.82	1.03B	3.01
ThinkSound	34.56	1.52	1.32	0.46	0.33	0.46	4.02±0.73	4.18±0.79	1.30B	1.07
w/o CoT Reasoning	39.84	1.59	1.40	0.48	0.29	0.41	3.91±0.83	4.04±0.75	1.30B	0.98

دراسات الاستئصال

لقد قمنا بالتحقيق في مساهمة كل مكون للتحقق من فعالية خيارات التصميم لدينا ، مع التركيز على ترميز النص والتكامل متعدد الوسائط.

استراتيجيات ترميز النص

الجدول 2: مقارنة استراتيجيات دمج مشفر النص ...
Method	FD ↓	KL_PaSST ↓	KL_PaNNs ↓	DeSync ↓	CLAP ↑
CLIP	39.84	1.59	1.40	0.48	0.41
T5 (CoT)	37.65	1.54	1.35	0.46	0.44
CLIP + T5	34.56	1.52	1.32	0.46	0.46

التكامل متعدد الوسائط

الجدول 3: مقارنة آليات التكامل متعدد الوسائط
Integration	FD ↓	KL_PaSST ↓	KL_PaNNs ↓	DeSync ↓	CLAP ↑
audio only	37.13	1.58	1.37	0.50	0.43
linear video	38.96	1.58	1.38	0.46	0.45
gated video	34.56	1.52	1.32	0.46	0.46

تأثير حجم النموذج

الجدول 4: تأثير نتائج حجم النموذج.
Size	FD ↓	KL_PaSST ↓	KL_PaNNs ↓	DeSync ↓	CLAP_CoT ↑
Small	40.80	1.64	1.38	0.46	0.41
Medium	36.80	1.56	1.34	0.46	0.44
Large	34.56	1.52	1.32	0.46	0.46

أسئلة مكررة

ThinkSound هو إطار عمل متقدم للذكاء الاصطناعي مصمم لتوليد وتحرير الصوت لمقاطع الفيديو. على عكس النماذج التقليدية ، فإنه يستخدم عملية استدلال تسمى سلسلة الأفكار (CoT) لفهم سياق الفيديو وإنشاء صوت عالي الجودة وملائم للغاية ، تمامًا كما يفعل مصمم الصوت المحترف.

تسمح سلسلة الأفكار للنموذج بتقسيم مهمة معقدة (مثل "إنشاء مسار صوتي لهذا الفيديو") إلى خطوات أصغر ومنطقية. على سبيل المثال ، قد تحدد أولاً الكائنات والإجراءات الرئيسية ، ثم تفكر في صوتيات البيئة ، وأخيرًا تقرر الأصوات المناسبة وتوقيتها. تؤدي هذه العملية خطوة بخطوة إلى توليد صوت أكثر دقة وإدراكًا للسياق.

ثلاثة أشياء رئيسية: 1) استخدامه لمنطق CoT لإنشاء صوت أكثر ذكاءً. 2) تفاعله ، مما يسمح للمستخدمين بتحرير الصوت والتركيز على كائنات معينة وتنقيح الصوت باستخدام اللغة الطبيعية. 3) يتم تشغيله بواسطة AudioCoT ، وهي مجموعة بيانات فريدة تم إنشاؤها خصيصًا لتدريب هذا النوع من توليد الصوت القائم على الاستدلال.

نعم! لقد قدمنا عرضًا تفاعليًا على Hugging Face Spaces ، مرتبطًا في الجزء العلوي من هذه الصفحة. يمكنك أيضًا استكشاف الكود المصدري على GitHub لتشغيل النموذج بنفسك.