في السنوات القليلة الماضية، صمم العلماء نماذج رؤية حاسوبية يمكنها أداء مهام كثيرة ومختلفة. وقد استخدمت هذه النماذج للكشف عن الأمراض في الصور الطبية، والمساعدة في الملاحة، وتحديد التغيرات في البيئة.
ونظراً لاعتماد هذه النماذج على تعلم الآلة، فيجب تدريبها عن طريق معالجة كميات هائلة من البيانات. وبعد تدريبها، تخضع للتقييم عن طريق اختبار أدائها على مجموعات بيانات لم تُستخدم في التدريب. على مدى العقد الماضي، كانت هناك مجموعة بيانات واحدة اسمها ImageNet شكلت معياراً لتقييم أداء نماذج الرؤية الحاسوبية.
ولكن دراسة حديثة أعدها باحثون في ميتا لأبحاث الذكاء الاصطناعي وجامعة محمد بن زايد للذكاء الاصطناعي خلصت إلى أن مستوى أداء نماذج الرؤية الحاسوبية على مجموعة بيانات ImageNet ليس دائماً مؤشراً دقيقاً على أداء هذه النماذج في مهام محددة.
نظر الباحثون في دراستهم في أربعة تكوينات شائعة لنماذج الرؤية الحاسوبية. وأظهرت نتائج الدراسة أن دقة التكوينات المختلفة على بيانات ImageNet قد تكون متشابهة بشكل عام، ولكن أداء النماذج على أنواع معينة من الصور يتباين. كما تشير النتائج إلى أن تكويناً معيناً للنموذج قد يكون أكثر ملاءمة لمهمة معينة من تكوين آخر.
ستُقدم هذه الدراسة في المؤتمر الدولي لتعلم الآلة الذي يعقد هذا الشهر في فيينا. وتجدر الإشارة إلى أن باحثين من جامعة محمد بن زايد للذكاء الاصطناعي شاركوا في إعداد 25 دراسة سيتم تقديمها في هذا المؤتمر، الذي يعد من أكبر وأهم المؤتمرات السنوية في مجال تعلم الآلة.
وقال زهيكيانغ شين، الأستاذ المساعد في قسم تعلم الآلة في جامعة محمد بن زايد للذكاء الاصطناعي، متحدثاً عن هذه الدراسة: “قدمنا تحليلاً مفصلاً لتأثير البنى وأساليب التدريب المختلفة على الأداء في الظروف المختلفة. ووجدنا أن مقياس ImageNet لوحده لا يبيّن بشكل كامل الفروق الدقيقة في الأداء التي تعتبر بالغة الأهمية في المهام المتخصصة”.
اختبار موحد
إحدى فوائد اختبار أداء النموذج على مجموعة بيانات ImageNet هي أنها مجموعة كبيرة ومتنوعة تعطي فكرة عن أداء النموذج في مجموعة واسعة من الصور. وهناك فائدة أخرى هي أن هذه المجموعة من البيانات تمثل معياراً مرجعياً يسمح بمقارنة أداء نموذج معين مع أداء نماذج أخرى جرى اختبارها أيضاً على المجموعة نفسها.
لكن تقييم أداء نموذج معين على معيار مثل ImageNet لا يفيد كثيراً. ويوضح شين ذلك بقوله: “تسجيل نتيجة أداء مرتفعة على مجموعة البيانات ImageNet لا يعني أن النموذج هو الأفضل لأداء مهمة محددة. فقد تكون نتيجة أداء النموذج على بيانات ImageNet متدنية، ولكنه أفضل لأداء مهمة معينة من نموذج آخر سجّل نتيجة أداءً أعلى هذه البيانات.
علاوة على ذلك، أشار الباحثون في الدراسة إلى أن “مجرد تحديد أخطاء النموذج في التعرف على فئات الأشياء”، وهي المهمة الأساسية التي تُستخدم لها مجموعة البيانات ImageNet، “قد لا يقدم أفكاراً مفيدة لتحسين النموذج. فالمهم هو تحديد أسباب هذه الأخطاء”. لذلك يقترح المؤلفون أن تحديد أنواع الأخطاء التي يرتكبها النظام يساعد الباحثين على تطوير طرق لإعادة تدريبه وتحسينه.
في هذه التجارب، حلل مؤلفو الدراسة بنيتين مختلفتين، وهما الشبكات العصبية الترشيحية والمُحوّلات. ونظروا أيضاً في طريقتين للتدريب، وهما التعلم الخاضع للإشراف، والتدريب المسبق على التباين بين اللغة والصورة. وهذا وفر لهم أربعة تكوينات لتحليلها.
تمزج النماذج الأربعة التي حللتها الدراسة ما بين القديم والحديث. فالشبكات العصبية الترشيحية مُستخدمة منذ عقود. أما المحوّلات، فاقترحها فريق من شركة “جوجل” للمرة الأولى في عام 2016. وأسلوب التعلم الخاضع للإشراف وصل لمرحلة النضج. أما التدريب المسبق على التباين بين اللغة والصورة فهو أسلوب حديث ابتكرته شركة “أوبن أيه آي”. وقد تحدث شين عن الدافع لإجراء الدراسة قائلاً: “أحد دوافعنا هو وجود جدل حول تحديد الأفضل بين بنية الشبكات العصبية الترشيحية وبنية المُحوّلات. ولكن الحقيقة هي أن المُحوّلات أفضل في سيناريو معين، والشبكات العصبية الترشيحية أفضل في سيناريو آخر. ويجب اختيار البنية المناسبة وأسلوب التدريب المناسب تبعاً للمهمة المطلوبة”.
الملاءمة للغرض
بالنسبة لبنية النموذج، وجد الباحثون أن أخطاء الشبكات العصبية الترشيحية كانت أكثر من أخطاء المُحوّلات فيما يتعلق بالملمس في الصور. في المقابل، كان أداءً الشبكات العصبية الترشيحية أفضل من المُحوّلات في التعامل مع البيانات الاصطناعية.
ووجد الباحثون أيضاً أن نماذج التعلم الخاضع للإشراف أقوى من نماذج التدريب المسبق على التباين بين اللغة والصورة، بمعنى أنها سجلت أداءً أفضل على مجموعة واسعة من البيانات. في المقابل، حققت نماذج التدريب المسبق على التباين بين اللغة والصورة أداءً أفضل من نماذج التعلم الخاضع للإشراف في معالجة “الصور المجردة أو الإبداعية”.
وواجهت جميع النماذج صعوبة في تصنيف الصور التي كان الجسم الرئيسي فيها مخفياً أو محجوباً بشكل جزئي.
أشار شين إلى وجود دراسات سابقة حول هذا الموضوع، ولكنها لم تقدم مقارنة بين تكوينات النماذج في بيئة موحدة.
وأوضح أن البحث يهدف بشكل أساسي إلى إيجاد طرق لتحسين دقة وكفاءة نماذج تعلم الآلة، مضيفاً أن: “الخطوة الأولى طبعاً هي اختيار البنية الصحيحة، ثم تحديد كيفية تحسين كفاءة النموذج في أداء المهمة المطلوبة”.
كما أشار إلى أنه بينما تستطيع شركات التكنولوجيا الكبيرة التي لديها موارد مالية كافية وتعمل على تطوير نماذج الرؤية الحاسوبية أن تحسن أداء هذه النماذج عن طريق جعلها أكبر وتدريبها باستخدام المزيد من البيانات، يمكن للشركات الأصغر والباحثين ذوي الموارد المحدودة تحقيق نتائج أفضل عن طريق اختيار التكوين المناسب منذ البداية.
واختتم شين كلامه بالقول: “بإمكان الشركات الكبيرة تدريب النموذج حتى الوصول إلى الأداء المطلوب. ولكن استخدام تكوين فعال يقلل من الحاجة لإنفاق أموال طائلة على التدريب”.
From optimal decision making to neural networks, we look at the basics of machine learning and how.....
يحتفي العالم في 18 ديسمبر من كل عام باليوم العالمي للغة الضاد في لفتَتٍ يقف فيها العالم.....
A team from MBZUAI used instruction tuning to help multimodal LLMs generate HTML code and answer questions.....