ملخص
بينما حقق الذكاء الاصطناعي الحديث خطوات كبيرة في توليد الصوت من الفيديو،
لا يزال إنشاء صوت عالي الدقة يتطابق حقًا مع الفروق الدقيقة في المحتوى المرئي
عقبة رئيسية. يتطلب تصميم الصوت الاحترافي
استدلالًا معقدًا حول الإشارات المرئية والصوتيات والتوقيت - وهي مهارة
كان من الصعب تكرارها في الذكاء الاصطناعي.
تقدم هذه الورقة ThinkSound، وهو إطار عمل رائد
يعلم الذكاء الاصطناعي "التفكير" مثل مصمم الصوت. باستخدام استدلال
سلسلة الأفكار (CoT)، يقوم ThinkSound بتقسيم المهمة المعقدة
لتوليد الصوت إلى خطوات منطقية يمكن التحكم فيها. وهذا لا يسمح
فقط بإنشاء الصوت من البداية ولكن أيضًا بالتحرير والتنقيح التفاعلي
الذي يركز على الكائنات باستخدام أوامر لغة طبيعية بسيطة. لدعم ذلك،
نقدم أيضًا AudioCoT، وهي مجموعة بيانات هي الأولى من نوعها
مصممة لتدريب النماذج على عملية الاستدلال هذه. تظهر تجاربنا
أن ThinkSound يضع معيارًا جديدًا في كل من جودة الصوت وملاءمته،
ويؤدي أداءً جيدًا بشكل استثنائي حتى في مشاهد الأفلام المعقدة وغير الموزعة.
التآزر مع نماذج توليد الفيديو
يضيف ThinkSound بسلاسة مناظر صوتية غنية ومتزامنة إلى مقاطع الفيديو التي تم إنشاؤها بواسطة النماذج التوليدية الرائدة. تم إنشاء مقاطع الفيديو أدناه بواسطة نماذجها الخاصة ؛ تم إنشاء كل الصوت بواسطة ThinkSound.
Veo + ThinkSound
Sora + ThinkSound
MovieGen + ThinkSound
مقارنات V2A على VGGSound (داخل التوزيع)
انقر على أي صورة مصغرة لتحميل وتشغيل الفيديو ، ومقارنة ThinkSound بالنماذج الأخرى.
CoT | الحقيقة الأساسية | ThinkSound | MMAudio | See&Hear |
---|---|---|---|---|
لعب التنس توليد أصوات مضرب التنس وهو يضرب الكرة والكرة ترتد... | ![]() | ![]() | ![]() | ![]() |
طباعة الطابعة توليد صوت طباعة طابعة مستمر مع أصوات صفير دورية... | ![]() | ![]() | ![]() | ![]() |
تمزيق الورق ابدأ بصوت تمزيق خفي للورق وهو يتمزق... | ![]() | ![]() | ![]() | ![]() |
استخدام آلات الخياطة توليد أصوات غرفة خياطة محيطة مع همهمة آلة خياطة متسقة... | ![]() | ![]() | ![]() | ![]() |
مقارنات V2A على MovieGen Audio (خارج التوزيع)
شاهد كيف يعمل ThinkSound على مقاطع أفلام صعبة وخارج التوزيع.
CoT | ThinkSound | Movie Gen Audio | MMAudio |
---|---|---|---|
أصوات مص لطيفة خلفية ناعمة وثابتة لمص مصاصة خفيف... | ![]() | ![]() | ![]() |
أوتار متناغمة أوتار الغيتار الصوتي تهمهم وتطن... | ![]() | ![]() | ![]() |
همهمة تلفزيون قديم ضوضاء خلفية محيطة مع كهرباء ساكنة خافتة وضوضاء بيضاء... | ![]() | ![]() | ![]() |
رعد شديد همهمة رياح منخفضة وفرقعة عرضية تضيف إلى الجو العاصف... | ![]() | ![]() | ![]() |
إنشاء فولي تفاعلي خطوة بخطوة
توليد V2A ← التركيز على الكائن ← إكمال الصوت
توليد V2A ← التركيز على الكائن ← تحرير الصوت
التجارب
النتائج الرئيسية على VGGSound
يتفوق ThinkSound على جميع خطوط الأساس عبر معظم المقاييس الموضوعية وجميع المقاييس الذاتية ، مما يحقق تحسينات كبيرة في جودة الصوت والمحاذاة الدلالية.
Method | Objective Metrics | Subjective Metrics | Efficiency | |||||||
---|---|---|---|---|---|---|---|---|---|---|
FD ↓ | KLPaSST ↓ | KLPaNNs ↓ | DeSync ↓ | CLAPcap ↑ | CLAPCoT ↑ | MOS-Q ↑ | MOS-A ↑ | Params | Time(s) ↓ | |
GT | - | - | - | 0.55 | 0.28 | 0.45 | 4.37±0.21 | 4.56±0.19 | - | - |
See&Hear | 118.95 | 2.26 | 2.30 | 1.20 | 0.32 | 0.35 | 2.75±1.08 | 2.87±0.99 | 415M | 19.42 |
V-AURA† | 46.99 | 2.23 | 1.83 | 0.65 | 0.23 | 0.37 | 3.42±1.03 | 3.20±1.17 | 695M | 14.00 |
FoleyCrafter | 39.15 | 2.06 | 1.89 | 1.21 | 0.41 | 0.34 | 3.08±1.21 | 2.63±0.88 | 1.20B | 3.84 |
Frieren† | 74.96 | 2.55 | 2.64 | 1.00 | 0.37 | 0.34 | 3.27±1.11 | 2.95±1.09 | 159M | - |
V2A-Mapper† | 48.10 | 2.50 | 2.34 | 1.23 | 0.38 | 0.32 | 3.31±1.02 | 3.16±1.04 | 229M | - |
MMAudio | 43.26 | 1.65 | 1.40 | 0.44 | 0.31 | 0.40 | 3.84±0.89 | 3.97±0.82 | 1.03B | 3.01 |
ThinkSound | 34.56 | 1.52 | 1.32 | 0.46 | 0.33 | 0.46 | 4.02±0.73 | 4.18±0.79 | 1.30B | 1.07 |
w/o CoT Reasoning | 39.84 | 1.59 | 1.40 | 0.48 | 0.29 | 0.41 | 3.91±0.83 | 4.04±0.75 | 1.30B | 0.98 |
دراسات الاستئصال
لقد قمنا بالتحقيق في مساهمة كل مكون للتحقق من فعالية خيارات التصميم لدينا ، مع التركيز على ترميز النص والتكامل متعدد الوسائط.
استراتيجيات ترميز النص
Method | FD ↓ | KLPaSST ↓ | KLPaNNs ↓ | DeSync ↓ | CLAP ↑ |
---|---|---|---|---|---|
CLIP | 39.84 | 1.59 | 1.40 | 0.48 | 0.41 |
T5 (CoT) | 37.65 | 1.54 | 1.35 | 0.46 | 0.44 |
CLIP + T5 | 34.56 | 1.52 | 1.32 | 0.46 | 0.46 |
التكامل متعدد الوسائط
Integration | FD ↓ | KLPaSST ↓ | KLPaNNs ↓ | DeSync ↓ | CLAP ↑ |
---|---|---|---|---|---|
audio only | 37.13 | 1.58 | 1.37 | 0.50 | 0.43 |
linear video | 38.96 | 1.58 | 1.38 | 0.46 | 0.45 |
gated video | 34.56 | 1.52 | 1.32 | 0.46 | 0.46 |
تأثير حجم النموذج
Size | FD ↓ | KLPaSST ↓ | KLPaNNs ↓ | DeSync ↓ | CLAPCoT ↑ |
---|---|---|---|---|---|
Small | 40.80 | 1.64 | 1.38 | 0.46 | 0.41 |
Medium | 36.80 | 1.56 | 1.34 | 0.46 | 0.44 |
Large | 34.56 | 1.52 | 1.32 | 0.46 | 0.46 |
أسئلة مكررة
ThinkSound هو إطار عمل متقدم للذكاء الاصطناعي مصمم لتوليد وتحرير الصوت لمقاطع الفيديو. على عكس النماذج التقليدية ، فإنه يستخدم عملية استدلال تسمى سلسلة الأفكار (CoT) لفهم سياق الفيديو وإنشاء صوت عالي الجودة وملائم للغاية ، تمامًا كما يفعل مصمم الصوت المحترف.
تسمح سلسلة الأفكار للنموذج بتقسيم مهمة معقدة (مثل "إنشاء مسار صوتي لهذا الفيديو") إلى خطوات أصغر ومنطقية. على سبيل المثال ، قد تحدد أولاً الكائنات والإجراءات الرئيسية ، ثم تفكر في صوتيات البيئة ، وأخيرًا تقرر الأصوات المناسبة وتوقيتها. تؤدي هذه العملية خطوة بخطوة إلى توليد صوت أكثر دقة وإدراكًا للسياق.
ثلاثة أشياء رئيسية: 1) استخدامه لمنطق CoT لإنشاء صوت أكثر ذكاءً. 2) تفاعله ، مما يسمح للمستخدمين بتحرير الصوت والتركيز على كائنات معينة وتنقيح الصوت باستخدام اللغة الطبيعية. 3) يتم تشغيله بواسطة AudioCoT ، وهي مجموعة بيانات فريدة تم إنشاؤها خصيصًا لتدريب هذا النوع من توليد الصوت القائم على الاستدلال.
نعم! لقد قدمنا عرضًا تفاعليًا على Hugging Face Spaces ، مرتبطًا في الجزء العلوي من هذه الصفحة. يمكنك أيضًا استكشاف الكود المصدري على GitHub لتشغيل النموذج بنفسك.