نظام ذكاء اصطناعي جديد لتعديل مقاطع الفيديو والموسيقى

209

قد يقضي الهواة والموسيقيون المحترفون على حد سواء ساعات في مشاهدة مقاطع YouTube للتعرف على كيفية عزف أجزاء معينة من أغانيهم المفضلة. ولكن ماذا لو كانت هناك طريقة لتشغيل مقطع فيديو وعزل الأداة الوحيدة الذي تريد سماعها؟

الذكاء الاصطناعي التابع لمعهد ماساتشوستس للتكنولوجيا (CSAIL) يستخدم نظام للتعلم العميق (Deep Learning) يمكن أن يعزل أصوات أدوات معينة ويجعلها أعلى أو أكثر وضوحا. حيث لا يتطلب النظام ، الذي “يخضع للإشراف الذاتي” ، أية تدخلات بشرية حول أنواع الأدوات الموسيقية أو كيف تكون اصواتها.

يمكن لنظام (PixelPlayer) الذي تم تدريبه على أكثر من 60 ساعة من مقاطع الفيديو ، مشاهدة أداء موسيقي لم يشاهده من قبل ، وتحديد الأدوات المستخدمة واستخراج الأصوات المرتبطة بهذه الأدوات. ويقول الباحثون إن القدرة على تحديد الأدوات الموسيقية الفردية تعني أنه في المستقبل ، يمكن أن تساعد مثل هذه الأنظمة المهندسين على تحسين جودة الصوت في لقطات الحفلات الموسيقية القديمة.

في بحث جديد، أظهر الفريق أن (PixelPlayer) يمكنه تحديد أصوات أكثر من 20 جهازًا شائعًا. يقول المؤلف الرئيسي “هانغ تشاو” إن النظام سيكون قادرًا على التعرف على العديد من الأدوات إذا كان لديه المزيد من البيانات، على الرغم من أنه ما زال يواجه صعوبة في التعامل مع الفروق الدقيقة بين الفئات الفرعية للأدوات.

تستخدم (PixelPlayer) طرق “التعلم العميق” او (Deep Learning) ، بمعنى أنها تجد أنماطًا في البيانات باستخدام ما يسمى “الشبكات العصبية” التي تم تدريبها على مقاطع الفيديو الموجودة. إن حقيقة أن (PixelPlayer) تستخدم ما يسمى التعلم العميق “الخاضع للإشراف الذاتي” يعني أن فريق MIT لا يفهم بشكل صريح كل جانب من جوانب كيفية تعلّم أي الأدوات التي تصنع الأصوات.

ومع ذلك ، يقول تشاو إنه يستطيع أن يقول أن النظام يبدو أنه يتعرف على العناصر الحقيقية للموسيقى. على سبيل المثال ، يبدو أن بعض الترددات التوافقية ترتبط بأدوات مثل الكمان ، في حين تتطابق أنماط تشبه النبض السريع مع أدوات مثل إكسيليفون.
يقول زهاو إنه يمكن استخدام نظام مثل (PixelPlayer) على الروبوتات لفهم الأصوات البيئية التي تصنعها الكائنات الأخرى بشكل أفضل ، مثل الحيوانات أو المركبات.

تعليقات