باحثون يطورون أدوات جديدة للتحقق من صحة إجابات النماذج اللغوية الكبيرة

Thursday, December 05, 2024
Somebody checks the generated text on a computer screen

شارك باحثون من جامعة محمد بن زايد للذكاء الاصطناعي في مؤتمر الأساليب التجريبية في معالجة اللغة الطبيعية الذي عقد مؤخراً في ميامي، حيث عرضوا أدوات جديدة لتحسين دقة إجابات النماذج اللغوية الكبيرة، من بينها تطبيق يتيح للمستخدمين التحقق من صحة هذه الإجابات، وتقييم أداء هذه النماذج وفقاً لمعايير متعددة، وتقييم أداء أدوات التحقق الآلي.

تقدم النماذج اللغوية الكبيرة المشهورة اليوم، مثل GPT من شركة “أوبن أيه آي” وLLaMA من شركة “ميتا”، فوائد عظيمة للمستخدمين. بيد أن الباحثين وجدوا أن حوالي 10% من المعلومات التي تقدمها هذه النماذج كاذبة، ولكن يُصعب على المستخدمين كشف ذلك لأن النماذج تقدمها باعتبارها معلومات مؤكدة وتقرنها مع معلومات صحيحة.

منذ إطلاق “تشات جي بي تي” في نهاية عام 2022، صمم المطورون مجموعة متنوعة من الأدوات للتحقق من صحة المعلومات التي يقدمها. ولكن هذه الأدوات ليست دقيقة دائماً، كما توضح يوكسيا وانغ، وهي باحثة ما بعد الدكتوراه في جامعة محمد بن زايد للذكاء الاصطناعي وشاركت في إعداد الدراسات البحثية التي قُدِّمت في مؤتمر الأساليب التجريبية في معالجة اللغة الطبيعية، حيث خلصت وانغ وزملاؤها في إحدى تلك الدراسات إلى أن بعضاً من أفضل أدوات التحقق الآلي الموجودة اليوم لا تكشف عن حوالي 40% من المعلومات الكاذبة التي تقدمها النماذج اللغوية الكبيرة.

تحديات التحقق من صحة المعلومات في النماذج اللغوية الكبيرة

التحقق من صحة المعلومات ليست مهمة سهلة، حيث تتكون هذه العملية من عدة خطوات، ومن المهم معرفة الخطوة التي قد يخطئ فيها النموذج. وتوضح وانغ أنه بينما يُقاس أداء أدوات التحقق في كثير من الأحيان وفقاً لمخرجاتها النهائية، فإن هذه الطريقة ذات فائدة محدودة لأنها لا تبين بالتفصيل موضع حدوث الخطأ. وتواصل كلامها قائلة: “هذا دفعنا إلى إنشاء معيار دقيق لتحليل كل خطوة حتى يتمكن المطورون من تقييم أنظمتهم وتحديد الخطوات الضعيفة والقوية وتحسين النموذج”.

تصف وانغ وزملاؤها في دراستهم سلسلة من ثماني مهام تنفذها أدوات التحقق الآلي لتحديد المعلومات الكاذبة وتصحيحها. أولى هذه المهام هي تحليل الإجابة، حيث يقوم النظام بتفكيك الإجابة التي يقدمها النموذج اللغوي الكبير إلى “عبارات صغيرة خالية من أي سياق وتحتوي كل منها معلومة واحدة فقط”.

لنأخذ مثلاً الإجابة التالية: “اشترى إيلون ماسك موقع تويتر في عام 2020 وغيّر اسمه إلى X”. فهذه الإجابة تُقسّم إلى ثلاث عبارات منفصلة وهي: “اشترى ماسك تويتر”، “اشتراه في عام 2020″، “غيّر اسمه إلى X”. ثم يتم إخراجها من سياقها والتحقق من صحة كل منها لوحدها، حيث يجري التحقق من أن إيلون ماسك اشترى تويتر، وأن ذلك حدث في عام 2020، وأنه غيّر اسمه إلى X.

أما الخطوات الأخرى في عملية التحقق من صحة المعلومات فهي: تقييم الجدارة بالتحقق، واسترجاع الأدلة وجمعها، وتقييم الوضع، واتخاذ القرار بشأن التصحيح، وتصحيح المعلومات، ومراجعة الإجابة النهائية.

إلى جانب الإطار المذكور أعلاه، وضعت وانغ وفريقها معياراً للتحقق من صحة المعلومات اسمه  Factcheck-Bench بغرض تقييم أداء أدوات التحقق الآلي. ويتكون هذا المعيار من حوالي 700 معلومة قدمتها النماذج اللغوية الكبيرة باللغة الإنجليزية في مجالات معرفية مختلفة وقام البشر بتصنيفها.

تقييم النماذج اللغوية الكبيرة وأدوات التحقق

شكل المعيار Factcheck-Bench أساساً لتطوير برنامج آخر اسمه OpenFactCheck يقيّم كلاً من النماذج اللغوية الكبيرة وأدوات التحقق الآلي. ويصف الباحثون هذا البرنامج بأنه برنامج موحد يتكون من ثلاث أدوات.

الأداة الأولى هي أداة تحقق آلي اسمها  ResponseEvaluator، وهي مُدمجة في تطبيق على الإنترنت ويمكن للمستخدمين تخصيصها للتحقق من صحة المعلومات التي تقدمها النماذج اللغوية الكبيرة. ويوضح حسن إقبال، وهو طالب ماجستير في جامعة محمد بن زايد للذكاء الاصطناعي وأحد المشاركين في إعداد الدراسة البحثية، أن هذه الأداة تنفذ خطوات تقوم بها عادة عدة برامج. فهي تقسم المستند إلى عبارات منفصلة، وتجمع الأدلة من شبكة الإنترنت، وتقارن بين العبارات والأدلة التي جمعتها.

ويشير إقبال إلى أن العمل على تطوير ResponseEvaluator سلط الضوء على العقبات التي تواجه أدوات التحقق الآلي، من بينها مثلاً وجود اختلافات في المعلومات التي يتم جمعها تبعاً للموقع الجغرافي لمصدرها. ويوضح ذلك بقوله: “نتائج البحث على شبكة الإنترنت تختلف تبعاً لمكان إجراء البحث. وهناك أيضاً معلومات صحيحة في بعض المناطق وغير صحيحة في مناطق أخرى.”

كما يتحدث إقبال عن تحدٍ آخر لافت للنظر ويتعلق بتغير الحقائق مع مرور الوقت. على سبيل المثال، قد يكون لشخص معين مسيرة مهنية طويلة في إحدى المؤسسات ثم ينتقل إلى مؤسسة أخرى، وبالتالي تصبح معظم المعلومات الموجودة على الإنترنت متعلقة بمنصبه السابق. وفي هذه الحالة تكون النتيجة التي تعطينا إياها أداة التحقق خاطئة.

الأداة الثانية هي LLMEvaluator، وهي تقيّم دقة المعلومات التي تقدمها النماذج اللغوية الكبيرة عبر مقارنتها بمجموعات بيانات معيارية بهدف تحديد نقاط قوة النموذج. ويمكن للمطورين استخدام تطبيق OpenFactCheck على شبكة الإنترنت لاختبار نماذجهم على مجموعات البيانات هذه واستلام تقارير عن أداء تلك النماذج.

أما الأداة الثالثة فهي CheckerEvaluator، وهي تقيّم أداء أدوات التحقق وترتبها في قائمة تبعاً لمستوى الأداء بهدف التشجيع على تطوير أدوات جديدة.

توضح وانغ أنه عندما يصمم المطورون أدوات تحقق، فغالباً ما تتباين الاستراتيجيات التي يتبعونها وفقاً لأولويات كل منهم. فبعض هذه الأدوات سريعة ولكن تكلفتها مرتفعة. وبعضها يعتمد على قواعد بيانات محلية، بينما يعتمد بعضها الآخر على قواعد بيانات بعيدة. ومن الضروري الموازنة بين جميع هذه الاعتبارات عند تصميم هذه الأدوات. وهناك بالتأكيد حاجة لأنظمة جديدة تقدم أداءً أفضل.

ويؤكد إقبال على أن OpenFactCheck برنامج مفتوح المصدر بشكل كامل وأن الكود الخاص به متاح على شكل مكتبة Pytho، مضيفاً: “نأمل أن يقوم المطورون باستخدام هذا البرنامج والاستفادة من الأدوات التي يوفرها لتحسين دقة برامجهم. وبما أنه مشروع مفتوح المصدر، فنحن نشجع الجميع على المساهمة والتعاون والمساعدة في تحسينه وتطويره”.

أخبار ذات صلة

thumbnail
Monday, January 27, 2025

أخبار الخريجين: رحلة مواصلة البحث عن الحقيقة

بعد نجاحه في تطوير أدوات مدعومة بالذكاء الاصطناعي تساعد في الكشف عن المعلومات المضللة والخاطئة، يركز زين.....

  1. الأبحاث ,
  2. معالجة اللغة الطبيعية ,
  3. النماذج اللغوية الكبيرة ,
  4. الخريجون ,
اقرأ المزيد
thumbnail
Thursday, December 12, 2024

طريقة جديدة لحل المشاكل المعقدة باستخدام النماذج اللغوية الكبيرة

استراتيجية جديدة لإعطاء الأوامر تسمى "الاستكشاف الموجه ذاتياً"، تساعد في تحسين أداء النماذج اللغوية الكبيرة بشكل كبير.

  1. إعطاء الأوامر ,
  2. المعالجة ,
  3. حل المشكلات ,
  4. النماذج اللغوية الكبيرة ,
  5. neurips ,
  6. تعلّم الآلة ,
اقرأ المزيد