حصد طلاب من جامعة محمد بن زايد للذكاء الاصطناعي جائزة المركز الثاني لأفضل دراسة بحثية طلابية في المؤتمر الآسيوي للرؤية الحاسوبية الذي عُقد في العاصمة الفيتنامية هانوي في ديسمبر الماضي. فقد طور الباحثون أداة مبتكرة أسموها “ObjectCompose” تتيح للمستخدمين إجراء تعديلات على خلفيات الصور يمكن استخدامها للتحقق من أداء الشبكات العصبية المخصصة لتطبيقات الرؤية الحاسوبية.
يوفر هذا النهج للمطورين طريقة جديدة لاختبار أداء أنظمة الذكاء الاصطناعي يمكن أن تشكل مكملاً لمجموعات البيانات المعيارية المستخدمة حالياً.
تولى قيادة المشروع كل من حشمت شدب مالك، طالب الدكتوراة في قسم الرؤية الحاسوبية، ومحمد حذيفة، طالب الماجستير في قسم تعلم الآلة بالجامعة.
عند تدريب أنظمة الرؤية الحاسوبية، يعرض المطورون على هذه الأنظمة مجموعة كبيرة ومتنوعة من الصور لكي تتعلم تمييز السمات الأساسية للأشياء الظاهرة فيها. ففي حالة تطوير نظام لتصنيف صور القطط والكلاب، يُعرض على النظام مجموعة كبيرة ومتنوعة من صور القطط والكلاب. ومن خلال التدريب، يتعلم النظام السمات المرئية التي تميز صور القطط عن صور الكلاب، أو هذا هو المقصود على الأقل.
ولكن من أبرز التحديات التي تواجه تدريب الشبكات العصبية هو احتمال توصل تلك الأنظمة إلى التصنيف الصحيح للصورة بالاعتماد على عناصر لا يصح الاعتماد عليها، كأن تتعلم مثلاً أن وجود أشياء معينة في خلفية الصورة يرتبط بصورة الكلاب أكثر من ارتباطه بصورة القطط، وبالتالي لا يكون أداء النماذج بالمستوى المتوقع عند استخدامها فعلياً.
لاختبار أداء أنظمة الرؤية الحاسوبية بعد تدريبها، يستخدم المطورون عادةً مجموعات بيانات مختلفة تماماً تُعرف باسم مجموعات التحقق. ويوضح حذيفة أن هذه العملية تعطي فكرة عن مستوى أداء النماذج في تنفيذ المهمة التي تدربت عليها، مؤكداً أنها “فكرة تقريبية فقط، لأن مجموعات التحقق لا تغطي بالضرورة درجة التنوع على أرض الواقع”.
لإضافة مزيد من التنوع على مجموعات التحقق، لجأ المطورون إلى طرق تقوم على إجراء تعديلات على الصور غالباً ما تكون في خلفيتها، وذلك لزيادة صعوبة مهام تصنيف الصور أو غيرها من المهام. كما يمكن لهذه التعديلات أن تكشف للمطورين الحالات التي تركز فيها النماذج على خلفية الصورة بدلاً من التركيز على العنصر المقصود فيها.
تساهم إضافة صور معدلة إلى مجموعات التحقق في زيادة تنوع البيانات وتعطي المطورين فكرة أفضل عن أداء النظام عند استخدامه فعلياً. ولكن الطرق الحالية تميل إلى إجراء تعديلات تشوه العنصر الرئيسي في الصورة، ما يؤدي إلى تغيير دلالات الصورة أو معناها الأساسي.
وهنا يأتي دور الأداة “ObjectCompose”، التي صُممت لحل هذه المشكلة عبر توليد خلفيات متنوعة للصور مع المحافظة على العنصر الرئيسي. ولا يتطلب الأمر سوى قيام المستخدم بإدخالٍ تعليمات نصية بسيطة.
ابتكر حذيفة وزملاؤه عملية آلية لتعديل خلفيات الصور تعتمد على تكنولوجيا طورتها شركة “ميتا” وتُعرف باسم “نموذج التجزئة الشامل” أو الاختصار “SAM” ويمكنها تحديد العناصر الرئيسية والخلفيات في الصور. يسمح هذا النموذج لأداة “ObjectCompose” بفصل العنصر المعني عن الخلفية وإجراء التعديلات على الخلفية فقط، مع الحفاظ على الدلالة الأصلية للصورة.
“ObjectCompose” هو نظام آلي يُستخدم لإدخال أوامر نصية لإجراء تعديلات على خلفيات الصور دون المساس بالعنصر الرئيسي فيها. في المقابل، تؤدي الطرق الأخرى مثل “LANCE” إلى تشويه الخلفية والعنصر الرئيسي معاً، وبالتالي تغيير المعنى الأصلي للصورة.
أراد حذيفة وزملاؤه اختبار أداء نماذج الرؤية الحاسوبية على مجموعات بيانات عُدلت باستخدام “ObjectCompose”، فأخذوا مجموعتي بيانات قياسيتين في مجال الرؤية الحاسوبية، وهما “ImageNet” و”COCO”، ثم عدلوا مجموعة صغيرة من صورهما باستخدام الأداة “ObjectCompose”. تضمنت هذه التعديلات تغيير الألوان والأنماط في خلفيات الصور. كما أنتجت الأداة “ObjectCompose” نسخاً معدلة بشكل كبير يصعب معه على أنظمة الرؤية الحاسوبية التعامل معها.
اختبر الباحثون أداء عدد من نماذج الرؤية الحاسوبية على هذه المجموعات المعدلة في مهام مختلفة، مثل تصنيف الصور، وتمييز الأجسام، ووصف الصور. فوجدوا أن التعديلات التي أجرتها الأداة “ObjectCompose” أدت إلى تراجع بنسبة 13.64% في أداء النماذج في مهام التصنيف بالمقارنة مع الطريقة الأساسية. كما أدت النسخ المُعدلة بشكل كبير إلى تراجع أكبر في الأداء وصل إلى نحو 70%، ما يشير إلى أن مجموعة البيانات المعيارية التي خضعت لتعديلات بواسطة “ObjectCompose” أصعب بشكل ملحوظ من غيرها، وأن هناك مجالاً لتطوير نماذج الرؤية الحاسوبية وتحسينها.
كما وجد حذيفة وزملاؤه أن التعديلات التي أجرتها أداة “ObjectCompose” أثرت على نماذج التصنيف أكثر من تأثيرها على نماذج تمييز الأجسام. يقول حذيفة في هذا الشأن: “ربما يكون سبب عدم تأثر نماذج تمييز الأجسام بالتعديلات هو طريقة تدريبها، حيث يُطلب منها بشكل صريح تمييز جسم في الصورة بغض النظر عن الخلفية”.
بناء أنظمة أفضل
يشير حذيفة إلى أن المطورين حققوا في السنوات القليلة الماضية تقدماً هائلاً في مجال النماذج اللغوية الكبيرة حتى أصبحت هذه الأنظمة قادرة اليوم على تنفيذ العديد من المهام بأداء عالٍ. ولكن نماذج الرؤية الحاسوبية ما زالت بحاجة إلى تحسينات كبيرة، ولم يتضح بعد ما إذا كانت مجموعات البيانات المعيارية الحالية تقدم فكرة دقيقة عن أدائها. وهو يؤكد أنه: “من الصعب جداً تحديد مدى قوة هذه النماذج. وعلينا مواصلة تحسين قدرتها على التعميم”.
يعتزم حذيفة الاستفادة من النتائج التي توصل إليه من خلال عمله على أداة “ObjectCompose” عبر تطوير طرق جديدة لإجراء تعديلات إضافية على الصور تسمح بتقييم أفضل لأداء نماذج الرؤية الحاسوبية. ويأمل أن تساهم هذه الأداة، مع أي ابتكار جديد يطوره هو وزملاؤه، في تطوير الجيل القادم من نماذج الرؤية الحاسوبية، بما في ذلك النماذج المدمجة في النماذج اللغوية الكبيرة متعددة الوسائط.
بينما تحتفل الإمارات بشهر الابتكار تحت شعار "الإمارات تبتكر 2025"، يحاول تيموثي بالدوين – عميد جامعة محمد.....
بعد نجاحه في تطوير أدوات مدعومة بالذكاء الاصطناعي تساعد في الكشف عن المعلومات المضللة والخاطئة، يركز زين.....
اقرأ المزيدأحمد الشامسي يفوز بالمركز الأول عن منصة "Secure+" المصممة لاكتشاف روابط التصيد الاحتيالي خلال فعاليات "هاكاثون الخليج.....