دمتري دميدوف هو طالب دكتوراه في قسم الرؤية الحاسوبية في جامعة محمد بن زايد للذكاء الاصطناعي، وهو عضو في فريق من خريجي الجامعة وهيئتها التدريسية حصل مؤخراً على جائزة أفضل ورقة بحثية طلابية من المؤتمر الدولي لنظريات وتطبيقات الرؤية الحاسوبية لعام 2023.
حملت الورقة البحثية عنوان “محول الرؤية البارز الموجه بالقناع للتصنيف الدقيق” وشارك في تأليفها محمد حمزة شريف، طالب دكتوراه وعلي أكبر عبد الرحيم، باحث في تعلم الآلة ومدرس مساعد وخريج سابق، وهشام شولاكال، أستاذ مساعد في قسم الرؤية الحاسوبية، وفهد خان، نائب رئيس قسم الرؤية الحاسوبية وأستاذ فيها في جامعة محمد بن زايد للذكاء الاصطناعي.
تقترح الورقة مقاربة بسيطة ولكن فعالة لتحسين دقة بنية محول الرؤية القياسي في التصنيف المرئي الدقيق، بهدف تحقيق مستوى من دقة الرؤية يمكّن التعرّف على الفرق بين الأشياء المتشابهة نظريًا وهي مهمة تستلزم عادةً معرفة معمّقة ومتخصصة. تشمل الأمثلة التعرف على التغيرات الدقيقة بين أنواع الحيوانات من الجنس نفسه أو بين أنواع محددة من السيارات أو الطائرات.
ويفسّر دميدوف: 'تستخدم النماذج القياسية عادةً عدداً كبيراً من الصور عالية الدقة لتتعلم من خلالها، وينخفض مستوى أدائها مع انخفاض عدد الصور ودقتها. ولكن في هذه الحالة، لا يزال النموذج الذي طورناه يسجل أداءً أفضل من بنية محول الرؤية الشائع.'
تُدعى التقنية التي يستخدمها الفريق “محول الرؤية البارز الموجه بالقناع” وتستخدم قناعاً بارزاً للتفريق بين الأشياء في المستوى الأمامي والخلفي لأي صورة، ومن ثم تستخدم مرمّزاً بارزاً موجهاً بالقناع شبيهاً بمحول الرؤية للتركيز على الخصائص المعيّنة التي تحدد الشيء بدلاً من تحليل الصورة الكاملة.
ويقول دميدوف الذي يبلغ من العمر 24 عاماً: “بخلاف الأعمال السابقة القائمة على محول الرؤية، لا نتجاهل كلياً الأجزاء التي يصعب التعرف عليها في الصورة، بل نوجّه مقاييس الانتباه نحو الأجزاء البارزة الأكثر نفعاً.”
استخدم الفريق ثلاث مجموعات بيانات لتدريب النموذج، واستغرقت العملية أكثر من أربع ساعات بقليل وتم تكرارها بين 50 و60 مرة، تم في كل منها تحليل حوالي 30 ألف صورة قبل أن يتمكن النموذج من تسجيل أداء أفضل من بنية محول الرؤية القياسي. يذكر دميدوف عدة سيناريوهات من العالم الحقيقي حيث يمكن لهذا المستوى من دقة الرؤية أن يقدم قيمة كبيرة، مثل المطارات: “يمكن استخدام الكاميرات لتحديد مختلف أنواع الطائرات ومواقعها وأيضاً لحساب كمية الوقود التي تحتاج إليها آلياً.”
بدأ دميدوف عمله على بحوث التعرّف على الأنماط كطالب جامعي في جامعة أومسك التقنية الحكومية، حيث انضم إلى مختبر في علم الروبوت يعمل على مشروع يشمل مهام طرق التموضع والتخطيط في الوقت نفسه. وبعد تخرجه في عام 2020، التحق بجامعة محمد بن زايد للذكاء الاصطناعي، حيث حصل على شهادة ماجستير في الرؤية الحاسوبية في عام 2022.
ويستذكر دميدوف قائلاً: “في عام 2014، عندما كنت طالباً جامعياً، كنت استخدم مقاربة كلاسيكية أكثر لحل المهام المتعلقة بالرؤية الحاسوبية من دون استخدام تعلم الآلة، وكان ذلك يستغرق الوقت ويستهلك الموارد. وأدركت في ذلك الحين الفرص المستقبلية، واليوم تستغرق المهام التي كان يتطلب إنجازها أسبوعين مجرد أربع أو خمس ساعات.”
تشمل اهتمامات دميدوف البحثية أنواعاً مختلفة من تصنيف الصور، ولكن مع اتباع نهج جامعة محمد بن زايد للذكاء الاصطناعي في التركيز على استخدام الذكاء الاصطناعي لحل التحديات من العالم الحقيقي. وتستخدم مشاريعه الرئيسية الرؤية الحاسوبية لتحسين التصنيف المرئي عند العمل مع مجموعات بيانات محدودة جداً.
ويضيف: “قد تبدو هذه المشكلة وكأنها صغيرة في بادئ الأمر لكنها مشكلة أساسية وهامة تستلزم إعادة تحديد الخوارزميات التقليدية للآلة والتعلم العميق كما والقواعد السائدة المتبعة في التصنيف التقليدي للصور باستخدام كمية كبيرة من الصور. قد يساهم تحسين أداء الحلول القائمة في هذا الصنف من المهام في العديد من التطبيقات إذ إن معظم المشاريع الفعلية في القطاع تتمتع بقدر محدود جداً من البيانات.”
عُقد المؤتمر الدولي لنظريات وتطبيقات الرؤية الحاسوبية التاسع عشر لعام 2023 في لشبونة في البرتغال من 19 إلى 21 فبراير 2023. يشكل هذا المؤتمر جزءًا من المؤتمر الدولي المشترك لنظريات وتطبيقات الرؤية الحاسوبية والتصوير والرسوميات الحاسوبية.
بعد نجاحه في تطوير أدوات مدعومة بالذكاء الاصطناعي تساعد في الكشف عن المعلومات المضللة والخاطئة، يركز زين.....
اقرأ المزيديحتفي العالم في 18 ديسمبر من كل عام باليوم العالمي للغة الضاد في لفتَتٍ يقف فيها العالم.....
فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي وجامعة موناش يبحث في مدى قدرة النماذج اللغوية.....
اقرأ المزيد