DeepMind تستخدم الذكاء الإصطناعي لإعادة بناء نماذج ثلاثية الأبعاد من صورة واحدة فقط

219

شاركت وحدة DeepMind التابعة لشركة Google في بعض أروع إنجازات الذكاء الإصطناعي التي حققتها الشركة في السنوات الأخيرة, بدءًا من التفوق الشديد على اللاعبين العاملين في مجال الترفيه من البشر مثل لعبة Go علي سبيل المثال إلى تطوير ذكاء إصطناعي قادر علي التحدث بواقعية مذهلة تحاكي البشر مثل Duplex.  الآن DeepMind تتطلع إلى تحسين طريقة فهم الآلات للصور ثلاثية الأبعاد, حيث أنشأ الباحثون في DeepMind شبكة عصبية يمكنها التنبؤ بما ستبدو عليه الأشكال ثلاثية الأبعاد بعد رؤية صورة واحدة أو أكثر لها.

الهدف الرئيسى من المشروع هو جعل الشبكات العصبية أسهل للتدريب. عادة, يجب أن تجعل البشر يصفون البيانات التي تستخدمها الشبكة العصبية للتدريب. بعد تغذية البيانات, تقوم العقد الموجودة في الشبكة بحساب الأوزان وتقديم التغذية إلى المزيد من العقد. في النهاية, يجب أن يتطابق إخراج النظام مع ما تضعه. وبالطبع, لن يحدث ذلك في البداية, لذا تحتاج إلى ضبط الشبكة حتى يتم تدريبها. والان يمكن للشبكة الجديدة (GQN) في DeepMind أن تتعلم من المدخلات غير المعلنة وتطبق معرفتها على المواقف الجديدة.

قام الفريق بتوليد مساحات افتراضية ثلاثية الأبعاد من المتجهات, ثم قاموا بإنشاء صور أحادية الإطار لهم لتحليل النظام. إن شبكة GQN هي في الواقع شبكتان عصبيتان – هناك شبكة تتعلم من الصور وثانية تولد منظورات جديدة. قام الفريق بمحاكاة كل من: ذراع آلي افتراضي, وطاولة شبيهة بالكتلة, ومتاهة بسيطة.

بعد تدريب GQN على ملايين الصور ، يمكن للنظام إنشاء تمثيلات دقيقة لكائن أو غرفة مع صورة ثابتة واحدة فقط. إنها مشابهة للطريقة التي يعمل بها دماغك. إذا رأيت جدارًا في منتصف الغرفة, فربما تتخيل كيف يبدو الجانب الآخر ومكانه مقارنة بالاماكن الأخرى التي يمكنك رؤيتها.

تعتقد DeepMind أن هذا النوع من التكنولوجيا قد يكون حيويًا في مجالات مثل السيارات ذاتية القيادة, حيث قد لا يكون لدى النظام جميع المعلومات المتوفرة حول ظروف الطريق المقابل. ومع ذلك, ربما يمكنه التنبؤ بدرجة عالية من الدقة بناءً على ما يعرفه.


الصور المعروضة على GQN بسيطة للغاية مقارنة بالعالم الحقيقي, ولا يزال الأمر يستغرق شهوراً للحصول على سرعة الشبكة المطلوبة لتكون متوافقة مع الأجهزة الحالية. قد يستغرق الأمر بضعة أجيال أخرى من التحسينات في المعالجة قبل أن يقترب نظام كهذا من فهم وتوقع وضع واقعي معقد.

تمت ترجمة المقال الأصلي والموجود بالرابط أدناه

https://www.extremetech.com/extreme/271661-google-deepmind-builds-ai-that-reconstructs-3d-objects-from-a-single-photo

 

تعليقات