مجموعة بيانات مرجعية جديدة لاختبار حدود قدرات النماذج اللغوية-البصرية

Tuesday, August 20, 2024

النماذج اللغوية-البصرية هي نماذج ذكاء اصطناعي مُعدةٌ لمعالجة اللغة الطبيعية والبيانات المرئية – كالصور ومقاطع الفيديو. ويمكنها [النماذج اللغوية-البصرية] أن تُساعِدَ المستخدمين في إنجاز عدد من المهام مثل إنشاء صورة لتنين أو إنتاج عنوان توضيحي للصورة نفسها بعد تحميلها إليها. وتطبيقات هذه النماذج، بالطبع، لا تنحصر في هذه الاستعمالات الأولية.

وقد تمكن مطورو هذه النماذج، على مدار السنوات القليلة الماضية، من إصدار نماذج لغوية-بصرية أفضل وأكثر كفاءة بما فيها نموذج GPT-4V من شركة أوبن أيه آي و Gemini من جوجل. وموازاة مع ما تشهده هذه النماذج من تطور، يحرص الباحثون باستمرار على تقييم قدراتها وفهم وتحديد ما يمكنها وما لا يمكنها القيام به.

وإسهاماً في هذا الجهد، قام مؤخراً فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي بإعداد دراسة اقترح فيها مجموعة بيانات مرجعية جديدة لتقييم قدرة هذه النماذج على معالجة اللغة، والمعلومات المرئية، والتفكير المنطقي. يُذكر أن الدراسة التي قُدمت خلال فعاليات “الاجتماع السنوي الـ 62 لجمعية اللغويات الحاسوبية” في بانكوك هي واحدة من بين 41 دراسة شارك بها في المؤتمر عدد من الباحثين في الجامعة، وتعد أيضاً واحدة من أهم الدراسات في مجال معالجة اللغة الطبيعية.

شارك في إعداد هذه الدراسة كل من بريسلاف ناكوف، أستاذ ورئيس قسم معالجة اللغة الطبيعية في جامعة محمد بن زايد للذكاء الاصطناعي إلى جانب كل من روكتيم جوفي داس وهاونان لي من الجامعة نفسها.

الحاجة إلى مجموعات البيانات المرجعية

تُعد مجموعات البيانات المرجعية ضرورية لتقييم قدرات أنظمة الذكاء الاصطناعي. وبالنظر إلى أهميتها، يعمل عدد من الباحثين الذين يقومون بتطوير معايير التقييم الخاصة بالنماذج اللغوية الكبيرة، بما فيهم باحثون من الجامعة، بجمع بيانات هي عبارة عن امتحانات مدرسية.

وتعتبر الامتحانات المدرسية أداة اختبار فعّالة لأنها تُقيِّم مجموعة واسعة من القدرات والمهارات مثل: فهم اللغة، والمعرفة الواقعية، والقدرة على التفكير المنطقي، مما يجعلها مناسبة لتقييم النماذج والطلاب على حد سواء. ورغم وجود عدة مجموعات بيانات تعتمد على الامتحانات المدرسية لتقييم أداء النماذج اللغوية الكبيرة، إلا أنه لا توجد مجموعات بيانات مشابهة لتقييم النماذج اللغوية-البصرية.

وتعقيبا، أشار بريسلاف ناكوف إلى أنه “لا توجد مجموعة بيانات أخرى مشابهة”، مضيفا أنه في “مجموعات بيانات أخرى، تكون الصور والنصوص عادةً منفصلة، ولكن في مجموعة البيانات التي طورناها نقدم السؤال للنموذج كاملاً في صورة واحدة.”

مجموعة بيانات EXAMS-V

تُعتبر مجموعة بيانات EXAMS-V واحدة من أكبر مجموعات البيانات، وتُعد “امتداداً متعدد الوسائط” لمجموعة بيانات سابقة تُسمى EXAMS ،والتي صُممت خصيصاً لتقييم النماذج اللغوية الكبيرة التي تم جمعها من اختبارات قياسية. وتحتوي مجموعة بيانات EXAMS-V على أكثر من 20 ألف سؤال اختيار من متعدد تغطي 26 مادة دراسية مختلفة، بما فيها: الفيزياء، والكيمياء، والتاريخ، والجغرافيا، والرياضيات. كما تدعم المجموعة 11 لغة بما فيها: العربية، والبلغارية، والصينية، والكرواتية، والإنجليزية، والألمانية، والروسية.

وعن هذه المجموعة الجديدة قال ناكوف أنه عندما سأل الفريق البحثي المطورين الذين يعملون على تطوير النماذج اللغوية-البصرية، أكدوا لهم أن هذا النوع من البيانات سيشكل اختباراً حقيقياً لقدرات هذا النوع من النماذج.

وتشتمل مجموعة بيانات EXAMS-V على الجداول، والرسومات البيانية، والمخططات، والرموز، والنصوص التي طُلب من النماذج اللغوية-البصرية تحليلها ضمن سياقها واختيار الإجابة الصحيحة على الأسئلة المطروحة فيها.

الرسم التوضيحي أعلاه هو لأسئلة من مجموعة بيانات EXAMS-V بست لغات من ضمن الإحدى عشرة التي تم استخدامها لأغراض هذه الدراسة. لاحظ المؤلفون أن “الأسئلة تتطلب القدرة على فهم لغات متعددة بالإضافة إلى قدرات الإدراك والاستدلال”

بالإضافة إلى مجموعة اختبار النماذج اللغوية-البصرية، أنشأ الباحثون مجموعة أخرى تحتوي على نماذج لغوية كبيرة، والتي لا تمتلك القدرة على تحليل الصور الأمر الذي كان معه من الضروري تعديل الأسئلة. وقد استخدم الباحثون مع مجموعة النماذج اللغوية الكبيرة، تقنية تسمى التعرف الضوئي على الحروف (OCR) لاستخراج النص من الصورة وقاموا باستخدام نموذج لغوي-بصري لتوليد النص التوضيحي للصورة. ثم تم إدخال النص الذي تم التعرف عليه بتقنية (OCR) والنص التوضيحي إلى النموذج اللغوي الكبير مع تعليمات لاختيار الإجابة الصحيحة.

ولاختبار مدى قدرة النماذج اللغوية-البصرية، قام الباحثون بطرح أسئلتهم على هذه النماذج باستخدام الصورة التي تحتوي على الأسئلة مع تعليمات للإجابة عنها. وتعليقا على هذا الاختبار قال ناكوف: “للإجابة على هذه الأسئلة بشكل صحيح، يجب أن يتجاوز النموذج مجرد فهم ما هو موجود في الصورة”.

الاختبارات بمجموعة بيانات EXAMS-V

الرسم التوضيحي أعلاه هو مثال على سؤال في مجموعة بيانات EXAMS-V تمت معالجته باستخدام تقنية التعرف الضوئي على الحروف (OCR) وتمت إضافة تعليق توضيحي له باستخدام GPT-4V، ثم تم تقديم النص والتعليق التوضيحي الناتج عن التعرف الضوئي على الحروف إلى النموذج اللغوي الكبير مع تعليمات لاختيار الإجابة الصحيحة.

في المستقبل، ستصبح الحاجة إلى مجموعات بيانات تختبر مجموعة واسعة من القدرات أكثر أهمية، وأوضح ناكوف قائلا: “إذا كنا نريد نماذج قادرة على حل المهام في العالم الحقيقي، فستتطلب هذه النماذج قدراً كبيراً من المعرفة عبر العديد من التخصصات المختلفة، وإذا كنا نريد معرفة ما إذا كان النموذج ذكياً حقاً، فإن إحدى الطرق هي إعطائه العديد من المهام المختلفة التي تختبر العديد من القدرات المختلفة“.

كان أداء النماذج اللغوية الكبيرة أفضل من أداء النماذج اللغوية-البصرية على مجموعة البيانات باللغة الصربية، وذلك ربما لأن النص المستخرج بتقنية OCR كان أسهل للمعالجة بالنسبة لهذه النماذج.

وأشار ناكوف إلى أن هناك جهودًا كبيرة لبناء نماذج ذات قدرات متعددة الوسائط ومتعددة اللغات وأنه من المهم تطوير معايير مرجعية قادرة على تقييمها بدقة.

رغم أن الكرواتية، والصربية لغتان مفهومتان بشكل متبادل، وإن كانتا مكتوبتين بنصوص مختلفة، حيث كتبت الكرواتية باللاتينية والصربية مكتوبة بالسيريلية، إلا أن أداء النماذج كان أفضل بكثير باللغة الكرواتية مما كان عليه باللغة الصربية. وقال ناكوف: “يبدو أنه إذا أعطيت النموذج السؤال الصربي فقط، والذي كتب بالأبجدية السيريلية، فإن النموذج لا يفهم الأبجدية بشكل جيد“.

تمكن الباحثون أيضاً من إجراء ما يسمى بفحص البيانات الموازية، أي أنهم في هذه الحالة يتوفرون على الأسئلة نفسها بأكثر من لغة بما فيها: الكرواتية، والإيطالية، والصربية. ومن المفروض – نضريا – أن يكون أداء النموذج اللغوي-البصري على المستوى نفسه باللغات الثلاث غير أن الأمر لم يكن كذلك.

في بعض الحالات، كان أداء النماذج اللغوية الكبيرة التي تم تزويدها بالنص والتعليق التوضيحي الناتج عن التعرف الضوئي على الحروف أفضل من أداء النماذج اللغوية-البصرية. ورغم أن مجموعة البيانات التي تقارن بين أداء النماذج اللغوية-البصرية وأداء النماذج اللغوية الكبيرة ليست قطعية، يعتقد ناكوف أن ذلك يشير إلى أن “نظم النماذج اللغوية-البصرية ليست قوية في التفكير المنطقي، لإنها مدربة على فهم ما هو موجود في الصورة وليس التفكير فيه“.

تباين أداء النماذج بشكل كبير على مستوى اللغات المستخدمة وموضوعات الأسئلة، حيث حقق GPT-4V دقة وصلت نسبتها إلى 62% بالنسبة للأسئلة باللغة الإيطالية و22% بالنسبة للأسئلة باللغة الصينية؛ أما بالنسبة لنموذج Gemini فقد سجل أفضل أداء له بنسبة 48% في اللغة الألمانية، فيما كان أسوأ أداء له بنسبة 19% في اللغة العربية. ونظراً لوجود أربع إجابات لكل سؤال، فإن متوسط الأداء بلغ حوالي 25%. بدا أن أداء النموذجين يرتبط بصعوبة الأسئلة، مثل أنواع الأشكال فيها [الجداول والرسومات البيانية].

نتائج الاختبارات التقييمية

أخبار ذات صلة

thumbnail
Tuesday, November 26, 2024

النماذج اللغوية الكبيرة وفهم انفعالات الإنسان وعواطفه

فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي وجامعة موناش يبحث في مدى قدرة النماذج اللغوية.....

  1. البحوث ,
  2. النماذج اللغوية الكبيرة ,
  3. EMNLP ,
  4. معالجة اللغة الطبيعية ,
  5. انفعالات الإنسان ,
  6. التعاطف ,
اقرأ المزيد