طوّر باحثون من جامعة محمد بن زايد للذكاء الاصطناعي إطاراً جديداً للتحقق من صحة المعلومات يعتمد على الاستفادة من المعرفة الكامنة داخل النماذج اللغوية الكبيرة، ما يتيح خفض تكاليف التحقق مع الحفاظ على مستويات عالية من الدقة. وقد عُرضت نتائج الدراسة خلال المؤتمر السنوي لعام 2025 لفرع الأمريكتين في جمعية اللغويات الحاسوبية (NAACL).
تمتلك النماذج اللغوية الكبيرة القدرة على الاستفادة من الكم الهائل من البيانات التي دُرّبت عليها، ما يمكّنها من تقديم إجابات سريعة عن مجموعة واسعة من الأسئلة، ورغم أن هذه الإجابات صحيحة في كثير من الأحيان، إلا أنها النماذج قد تقدم معلومات غير دقيقة أحياناً أخرى.
ويعود ذلك إلى أن هذه النماذج قد تنتج إجابات تبدو واثقة ومقنعة رغم افتقارها إلى الأساس الواقعي، في ظاهرة تُعرف باسم “الهلوسة” التي تُمثل إحدى أبرز التحديات التي تحد من موثوقية النماذج اللغوية الحالية.
ولمعالجة هذه المشكلة، طوّر الباحثون عدداً من الأطر التي تتحقق تلقائياً من المعلومات التي تنتجها النماذج اللغوية. وتعتمد هذه الأساليب عادة على تقسيم النصوص إلى ادعاءات منفصلة، ثم إجراء عمليات بحث عبر الإنترنت لاسترجاع معلومات تدعم هذه الادعاءات أو تنفيها. وبعد ذلك، يستخدم نموذج لغوي آخر هذه المعلومات لإصدار حكم بشأن صحة كل ادعاء.
وتحقق هذه المنهجية نتائج جيدة، لكنها مكلفة، فكل عملية بحث وتحليل للمعلومات المسترجعة من الإنترنت تستهلك موارد حاسوبية إضافية. كما أن هذه الأساليب لا تستفيد بالكامل من المعرفة الداخلية المخزنة داخل النموذج نفسه، فحتى عندما تنتج النماذج معلومات غير صحيحة، قد تكون في بعض الحالات قادرة على الوصول إلى الإجابة الصحيحة من دون الحاجة إلى البحث الخارجي. ويُعتقد أن أكبر النماذج اللغوية الحالية، التي طورتها شركات مثل OpenAI وMeta وAnthropic، تدربت على معظم المحتوى المتاح علناً على الإنترنت.
ويقول تشووهان شيه، الباحث ما بعد الدكتوراه في جامعة محمد بن زايد للذكاء الاصطناعي والمؤلف الرئيسي للدراسة: “قد لا تكون عملية استرجاع الأدلة ضرورية في بعض الحالات”.
ولهذا السبب طوّر شيه وزملاؤه نهجاً جديداً يحمل اسم FIRE، اختصاراً لعبارة Fact-checking with Iterative Retrieval and Verification، أي “التحقق من المعلومات عبر الاسترجاع والتحقق التكراري”، وهو نظام يعتمد على قياس مستوى الثقة الذي يبديه النموذج تجاه الادعاء قبل اللجوء إلى البحث الخارجي. فإذا تجاوزت درجة الثقة مستوى معيناً، يصنّف النظام الادعاء على أنه صحيح. أما إذا كانت الثقة منخفضة، فيجري بحثاً عبر الإنترنت للحصول على معلومات إضافية قبل إصدار حكم نهائي.
ولا يقتصر الأمر على ذلك، إذ يحتفظ الإطار بالمعرفة التي يكتسبها من عمليات البحث ليستفيد منها لاحقاً عند تقييم ادعاءات أخرى ضمن النص نفسه.
ويقول شيه: “حاولنا تطوير عملية تكرارية تشبه الطريقة التي يعمل بها المدقق البشري عند التحقق من المعلومات”.
وشارك في إعداد الدراسة كل من روي شينغ، ويوشيا وانغ، وجياهوي غينغ، وحسن إقبال، ودهروف ساهنان، وإيرينا غوريفيتش، وبريسلاف ناكوف من جامعة محمد بن زايد للذكاء الاصطناعي.
وبما أن الإطار يعتمد جزئياً على المعرفة الداخلية للنموذج اللغوي، فإنه يقلل الحاجة إلى إجراء عمليات بحث غير ضرورية.
ويضيف شيه: “العديد من الادعاءات بسيطة بما يكفي بحيث لا تتطلب إجراء بحث. وبالمقارنة مع الأساليب الأخرى، يتميز إطارنا بمرونة أكبر وقابلية أعلى للتوسع، كما يساعد على خفض التكاليف”.
وعند وصول النظام إلى الحد الأقصى لعدد خطوات التحقق، يصدر حكماً استناداً إلى المعلومات التي جمعها حتى تلك اللحظة.
كما قارنوا أداء الإطار بعدد من أطر التحقق الأخرى باستخدام نماذج لغوية تعتمد على الاستدلال وأخرى لا تعتمد عليه.
وركز الباحثون خلال هذه التجارب على دراسة العلاقة بين تكلفة التشغيل ودقة التحقق من المعلومات.
وأظهرت النتائج أن أداء الإطار (FIRE) كان قريباً من أداء الأطر الأخرى، لكنه حقق وفورات كبيرة في التكلفة. فعند استخدامه مع GPT-4o-mini، انخفضت تكلفة استخدام النماذج اللغوية بمعدل 7.6 مرات، كما تراجعت تكلفة عمليات البحث بمعدل 16.5 مرة.
كما أظهرت النتائج أن استخدام FIRE مع GPT-4o-mini كان أقل دقة من استخدامه مع النموذج الأكثر تقدماً o1-preview، لكنه كان أقل تكلفة بنحو 766 مرة.
ويرى الباحثون أن هذا الفارق الكبير يشير إلى أن استخدام النماذج الأكثر تطوراً قد لا يكون ضرورياً في جميع مهام التحقق من المعلومات.
كما أظهرت الدراسة أن النماذج غير المعتمدة على الاستدلال أقل تكلفة من حيث التشغيل، لكنها تحتاج إلى عدد أكبر من عمليات البحث الخارجية. وفي المقابل، كانت النماذج القائمة على الاستدلال أكثر تكلفة، لكنها قدمت أداءً أفضل في التحقق من المعلومات.
ومن النتائج اللافتة أيضاً أن الباحثين اكتشفوا أخطاء في مجموعات البيانات المرجعية نفسها عند مراجعة الحالات التي أخفقت فيها الأنظمة، فقد تبين أن بعض الادعاءات كانت غامضة أو ذات طابع شخصي، بينما احتوت حالات أخرى على تصنيفات صحيحة أو خاطئة غير دقيقة أساساً.
ويشير شيه إلى أن تحسين أداء النماذج على مجموعات بيانات تتضمن أخطاء لا يمثل تقدماً حقيقياً، لأن ذلك قد يؤدي إلى ما يُعرف بالإفراط في التخصيص لمجموعة البيانات، دون أن ينعكس إيجاباً على الأداء في التطبيقات الواقعية.
إلى جانب الحد من ظاهرة الهلوسة في النماذج اللغوية، يمكن استخدام أنظمة مثل FIRE في رصد المعلومات المضللة والتصدي لها على الإنترنت، وهي مشكلة لا تقتصر على النصوص المكتوبة، بل تمتد أيضاً إلى الصور ومقاطع الفيديو.
ورغم أن FIRE صُمم حالياً للتحقق من النصوص فقط، يرى شيه أنه يمكن توسيعه مستقبلاً ليشمل التحقق من المحتوى متعدد الوسائط.
كما يشير إلى أن النسخ المستقبلية من النظام قد تؤدي دوراً أشبه بقاعدة معرفة مساندة للنماذج اللغوية الكبيرة. فالمعلومات التي يجمعها النظام من عمليات البحث السابقة يمكن إعادة استخدامها لدعم عمليات التحقق اللاحقة لمستخدمين آخرين، ما قد يسهم في خفض التكاليف بصورة أكبر.
ورغم الحاجة إلى مزيد من العمل لتطوير أساليب تحقق أكثر دقة وأقل تكلفة، يعرب شيه عن إعجابه بالسرعة التي يتقدم بها هذا المجال وبالإمكانات المتزايدة لهذه الأنظمة في اكتشاف الهلوسة والمعلومات المضللة.
ويقول: “هناك دائماً أمور مثيرة تحدث في مجال معالجة اللغات الطبيعية”. ويضيف أنه رغم أن مجموعات البيانات المرجعية الحالية ليست مثالية، فإن الباحثين سيواصلون استخدامها لمقارنة أداء النماذج المختلفة وقياس مدى التقدم الذي تحققه بمرور الوقت.
خريجة الماجستير تزينكسي وانغ تستكشف الميكانيزمات الداخلية التي تتحكم في طريقة معالجة النماذج اللغوية الكبيرة للغة وأساليب.....
من مجرد فضول بحثي هدفه كشف الأكواد البرمجية المولدة آلياً، تحوّل مشروع خريج الماجستير دانييل أوريل إلى.....
طوّر باحثون من جامعة محمد بن زايد للذكاء الاصطناعي منهجية DP-Fusion، وهي طريقة تتيح حماية البيانات الحساسة.....