أداة جديدة لتقييم أداء النماذج اللغوية الكبيرة باللغة العربية

Thursday, August 22, 2024

غالباً ما يتم تدريب النماذج اللغوية الكبيرة مثل GPT-4 من شركة أوبن أيه آي وLLaMA من مِيتَا اعتماداً على حُزَمِ بيانات من لغات مختلفة. وقد سألنا كل من النموذجين المذكورين – وقت كتابة هذه المقالة – عن عدد اللغات التي تم تدريبهما عليها وكان جواب الأول أن حزمة البيانات التي دُرب عليها ضمت أكثر من 100 لغة، فيما ضمت حزمة الثاني أكثر من 50 لغة.

الواقع أن تدريب نموذج ما على بيانات لغة معينة لا يعني بالضرورة إتقانه لتلك اللغة. ولفهم فعالية النماذج من هذا النوع بدقة، يقوم الباحثون بتطوير ما يُعرَفُ بـ “مجموعات بيانات القياس”؛ وهي اختبارات معيارية تُستخدم لتقييم أداء هذه النماذج. وتُمكن هذه الاختبارات الباحثين من مقارنة أداء نماذج مختلفة، وتحديد نقاط قوتها وضعفها، واتخاذ قرارات مدروسة لتحسينها. كما تمكنهم هذه العملية من متابعة تطور هذه النماذج مع مرور الوقت من خلال تقييمها باستخدام معايير القياس نفسها، مما يساعد في رصد مدى تحسن أدائها.

وأكد، في هذا الصدد، فجري كوتو – الأستاذ المساعد في قسم معالجة اللغة الطبيعية بجامعة محمد بن زايد للذكاء الاصطناعي – الحاجة الماسة لمعايير مشابهة في لغات أخرى غير الإنجليزية، مشيراً إلى أن: 'بسبب النقص الحاصل في مجموعات البيانات هذه، لا يستطيع المستخدمون تقييم أداء هذه النماذج بدقة في لغات أخرى غير الإنجليزية'.

فجري كوتو

ولسد هذا النقص، قام مؤخراً كوتو وباحثون من الجامعة نفسها ومؤسسات أخرى بتجميع أول مجموعة بيانات معيارية باللغة العربية الفصحى الحديثة لتقييم فهم هذه النماذج للغة من خلال مجموعة من المهام. يذكر أن هذه الدراسة سيتم تقديمها خلال فعاليات الاجتماع السنوي الـ 62 لجمعية اللغويات الحاسوبية” الذي سيعقد هذا الأسبوع في بانكوك.

كانت، فيما مضى، البيانات الوحيدة المتاحة لتقييم مستوى معرفة وقدرات النماذج اللغوية الكبيرة باللغة العربية على التفكير تقتصر على المصادر المترجمة من الإنجليزية مما يقلل من فعاليتها، ذلك لأن الترجمة قد تؤدي إلى إدخال أخطاء وتغفل عن السياقات أو السمات الثقافية الخاصة بالمنطقة العربية. كما يوضح كوتو، “لقد تم استخدام اللغة الإنجليزية بشكل واسع لتقييم أكبر النماذج اللغوية الكبيرة، ولكن بما أن هذه البيانات تركز على الإنجليزية، فإن السياق الثقافي يكون أكثر توافقا مع الثقافة الأمريكية، وهو ما لا يتناسب مع الواقع الثقافي في العالم العربي.”

أطلق كوتو وزملاؤه اسم “ArabicMMLU” على حزمة بياناتهم المعيارية التي تعتمد نهجاً مبتكراً يُعرف باسم Massive Multitask Language Understanding. وقد تم تطوير هذا النهج من قبل فريق بحثي في جامعة كاليفورنيا – بيركلي. كما أن هذا النهج مصمم لاختبار قدرة النماذج على التعامل مع أسئلة الاختيار من متعدد ضمن مجموعة متنوعة من الموضوعات، مما يتيح قياس مدى فهم النماذج وشموليتها في معالجة المعلومات اللغوية.

تحتوي حزمة بيانات “ArabicMMLU” على أكثر من 14 ألف سؤال اختيار من متعدد تم جمعها من امتحانات المدارس في جميع أنحاء الوطن العربي. وقد قام كوتو وزملاؤه بتجميع مجموعة البيانات بمساعدة متحدثين ناطقين باللغة العربية من: مصر، والأردن، ولبنان، والسعودية، والإمارات. ويتعلق أكثر من نصف هذه الأسئلة بما يسميه الباحثون في هذه الدراسة بـ “السياقات العربية المحددة”.

يشار إلى أن حزمة بيانات “ArabicMMLU” تُقيِّم جانبين رئيسيين من الجوانب المتصلة بالنماذج اللغوية الكبيرة: أولهما مرتبط بالجانب المعرفي حيث يتم قياس مستوى ما تعلمه النموذج وخزنه أثناء التدريب، ومثال هذا معرفة النموذج أن أبوظبي هي عاصمة الإمارات؛ أما ثاني هذه الجوانب فيتعلق بقياس قدرة النموذج الاستدلالية وقدرته على استخدام المعرفة التي اكتسبها للتوصل إلى استنتاجات جديدة أو تقديم إجابات على أسئلة تتطلب التفكير، ومثال هذا سؤال: “ما عدد المئات والعشرات في العدد 700؟”

الغرض من أسئلة الاختيار من متعدد المدرجة ضمن حزمة بيانات “ArabicMMLU” – يقول كوتو – كان في الأصل اختبار قدرة الطلاب التحليلية الخاصة بمجالات معرفية معينة، أما الهدف من استخدامها البحثي في الدراسة هو معرفة ما إذا كان النموذج اللغوي سيستطيع الوصول إلى استنتاجات جديدة والتفكير بطرق جديدة عند التعامل مع هذا النوع من الأسئلة.

ويوضح كوتو أن الباحثين، عند اختبار قدرات النماذج على التفكير، يحاولون تحديد ما إذا كانت تستطيع الإجابة على الأسئلة بشكل صحيح لقدرتها على التفكير المنطقي أو لأنها – ببساطة – سبق لها التعامل مع الأسئلة نفسها؛ غير أن الوصول إلى هذه النتيجة يطرح تحدياً كبيراً يتجلى في كون أن أكبر النماذج اللغوية الكبيرة تم تدريبها اعتمادا على حزم بيانات كبيرة جداً مما يُصعب معرفة ما إذا كانت هذه النماذج قد سبق لها الإجابة على أسئلة مشابهة.

يذكر أن الباحثين في هذه الدراسة، قاموا بتقييم 35 نموذجاً لغويا منها 22 نموذجاً متعدد اللغات مفتوح المصدر، و11 نموذجاً عربياً مفتوح المصدر، ونموذجين عربيين مغلقي المصدر.

وقد وجد الباحثون فيما يتعلق بإجابة النموذجين على الأسئلة من دون تدريب مسبق – أي المرة الأولى التي سيجيب فيها النموذج على السؤال – أن GPT-4 تفوق على جميع النماذج الأخرى، حيث أجاب على 72.5% من الأسئلة بشكل صحيح في مختلف الموضوعات، غير أن فريق الباحثين غير متأكد مما إذا كان أداء GPT-4 القوي يرجع إلى قدراته العالية على التفكير أو أن سببها – بكل بساطة – يرجع إلى البيانات التي حفظها أو سبق له التعرف عليها.

الأمر الآخر المثير للاهتمام في الدراسة هو التفوق الذي لوحظ في أداء نموذج منصة “جيس”، وهو نموذج لغوي كبير باللغة العربية طورته جامعة محمد بن زايد للذكاء الاصطناعي وشركة Inception، الذي كان أفضل نموذج مفتوح المصدر، حيث أجاب على 62.3% من الأسئلة بشكل صحيح. كما أنه تفوق على GPT-3.5 – وهو أمر مهم – رغم صغره بكثير مقارنة معه.

أظهرت الدراسة بشكل عام أن أداء النماذج اللغوية الكبيرة مفتوحة المصدر كان ضعيفا في عملية التقييم، الأمر الذي برز بوضوح بالنسبة للنماذج مفتوحة المصدر متعددة اللغات. كما أظهرت الدراسة أن النماذج المطورة خصيصاً للغة العربية تواجه صعوبة في الأسئلة المتعلقة بالمعرفة أو السمات الثقافية.

درس الباحثون ضمن هذه الدراسة أيضاً أداء النماذج باستخدام البيانات من بلدان محددة. وأوضح كوتو أن هذا النوع من التحليل قد يكون مفيداً للمطورين الذين يقومون بتطوير نماذج للاستخدام في بلد معين أو مجموعة محددة من البلدان. ​​وأضاف قائلا: “يمكن أن يشكل ArabicMMLU أداة تساعد المطورين الذين يريدون معرفة مدى قوة أداء نموذج ما في منطقة معينة”.

ورغم أن “ArabicMMLU” يمثل تقدماً كبيراً في تقييم نماذج اللغة العربية، ما تزال هناك حاجة كبيرة لمجموعات بيانات عالية الجودة وغير مترجمة. وذكر كوتو: “لم يتم تحقيق أي تقدم في اللغات الأخرى غير الإنجليزية بالسرعة التي ينبغي له”.

أخبار ذات صلة

thumbnail
Thursday, December 05, 2024

باحثون يطورون أدوات جديدة للتحقق من صحة إجابات النماذج اللغوية الكبيرة

باحثون من جامعة محمد بن زايد للذكاء الاصطناعي يطورون أدوات جديدة لتحسين دقة إجابات النماذج اللغوية الكبيرة.....

  1. EMNLP ,
  2. صحة المعلومات ,
  3. التحقق ,
  4. معالجة اللغة الطبيعية ,
  5. النماذج اللغوية الكبيرة ,
  6. البحوث ,
  7. المؤتمرات ,
اقرأ المزيد