عادة ما تُدرَّب نماذج الذكاء الاصطناعي على فرضية أساسية مفادها أن لكل شيء ثَمَّةَ تصنيف صحيح واحد؛ فالنص إما يتضمن محتوى ضار أو لا، والمعلومة إما مثبتة أو منقوضة، والمشكلة القانونية تنتمي إلى فئة واحدة دون غيرها.
وتشير، في هذا الصدد، دراسة حديثة بعنوان “التدريب والتقييم في ظل اختلاف تصنيفات المعلّقين: دراسة تجريبية“، أعدّها باحثون من جامعة ملبورن وجامعة محمد بن زايد للذكاء الاصطناعي نُشرت في مجلة Computational Linguistics، إلى أن المعلّقين قد لا يتفقون دائماً على تقييم محتوى ما بالطريقة نفسها، وأحياناً يكون اختلافهم مبرراً ومنطقياً. وتتجلى هذه التباينات بوضوح في مهام المعالجة اللغوية التي يصبح فيها الغموض جزءاً طبيعيّاً من الظاهرة التي تحاول النماذج فهمها وقياسها، وليس مجرد “خطأ” يجب تصحيحه أو التخلص منه.
الواقع أن الكثير مما نعتبره ذكاءً اصطناعياً حديثاً يعتمد على الحكم البشري. فعمليات ضبط المحتوى ومراقبته، والاستدلال اللغوي، والتحليل الأخلاقي، والتصنيف القانوني، وتحليل المشاعر كلها تستند إلى تصنيفات يضعها البشر الذين قد تتفاوت وتتباين تفسيراتهم. فقد يرى معلّق ما السخرية في منشور، فيما يراه آخر عدوانياً. كما قد يصنف محام قضية ضمن مجال قانوني محدد، بينما يضعها محامٍ آخر – بالكفاءة نفسها – ضمن مجال آخر.
والملاحظ أن ممارسات تعلم الآلة في هذا السياق غالباً ما تميل إلى تبسيط هذه الاختلافات والتباينات وتحويلها إلى تصنيف موحد، وهو ما يؤدي بدوره إلى فقدان معلومات قيمة. ولمواجهة هذا التحدي ومعالجة هذا النقص، اعتمدت الدراسة السالفة الذكر على مفهوم “اختلاف التصنيفات“.
ويحاول هذا النهج التعامل مع التباينات السابقة لا بوصفها عيوباً أو شوائب في البيانات، بل باعتبارها إشارات دلالية مهمة ينبغي أخذها في الحسبان؛ غير أن التخلي عن افتراض وجود حقيقة واحدة واضحة يجعل عمليتي التدريب والتقييم أكثر تعقيداً، ويطرح تساؤلاً حول ما الذي ينبغي للنموذج أن يتعلمه من هذا التعدد في الأحكام البشرية، وكيف يمكن تقييم مخرجاته بدقة في ظل هذا التباين.
انطلاقاً من هذا التساؤل – كيف يمكن تدريب النماذج وتقييمها في ظل غياب “حقيقة واحدة” واضحة – تقدّم الدراسة مقاربة جديدة لنمذجة الأحكام البشرية. ويقترح الباحثون مجموعة من مقاييس التقييم المصممة خصيصاً للتعامل مع البيانات التي تتسم بتعدد التسميات، مستلهمين في ذلك مفاهيم من “نظرية المجموعات الغامضة”، إضافة إلى الاستشعار عن بُعد. ففي تحليل لصور الأقمار الصناعية، قد يحتوي المكان الواحد على الماء والنباتات والطرق في آنٍ واحد، ما يفرض اعتماد مقاربة قائمة على الدرجات النسبية لا التصنيفات المطلقة. وتنقل الدراسة، من هذا المنطلق، هذا المنطق إلى معالجة اللغة الطبيعية، بحيث تعالج الأحكام البشرية بوصفها تصنيفات جزئية متعددة، بدلاً من تصنيف واحد جامد.
ويستند هذا النهج إلى أساس رياضي متين، مع الحرص على إبقاء النتائج مفهومة خارج الأوساط المتخصصة. فبينما توفر مقاييس نظرية المعلومات التقليدية أدوات دقيقة لمقارنة التوزيعات الإحصائية، غالباً ما تفتقر هذه المقاييس إلى الوضوح عند تطبيقها في سياقات عملية أوسع. ويقترح الباحثون من هنا ما يُعرف بـ “المقاييس المرنة”، التي تحافظ على منطق المؤشرات الشائعة مثل “الدقة” و”مقياس إف”، لكنها تعيد تكييفها لتلائم الحالات التي تتعدد فيها الإجابات المقبولة، بحيث تعكس بدقة أكبر طبيعة الأحكام البشرية المتباينة.
وبدلاً من الاكتفاء بسؤال ما إذا كان النموذج قد اختار “الإجابة الصحيحة”، تركز هذه المقاييس على مدى توافق مخرجاته مع التوزيع الإحصائي للأحكام البشرية. وتشير الدراسة إلى أن بعض الأساليب القائمة، مثل المقاييس المبنية على تباعد “جنسن–شانون”، قد تعطي انطباعاً مضللاً بارتفاع الأداء. ويبرز في مقابل هذا مقياس “Soft Micro F1” كأحد أكثر المؤشرات دقة في هذا السياق، مع توصية واضحة باستخدامه في الأبحاث المستقبلية المتعلقة بتباين التصنيفات البشرية.
ولا تتوقف أهمية هذه المقاييس عند حدود التقييم فحسب، بل اختبر الباحثون إمكانية استخدامها مباشرة كأهداف تدريبية. وقد أظهرت النتائج – التي شملت ست مجموعات للبيانات و14 أسلوب تدريب وعلى مستويين مختلفين من النماذج – أن الحلول الأبسط غالباً ما كانت الأكثر فاعلية، حيث تفوق التدريب على التوصيفات المفصلة أو على المسميات المرنة التي تحافظ على التوزيع الإحصائي للأحكام على الأهداف الأكثر تعقيداً القائمة على المقاييس القابلة للاشتقاق.
وشملت التجارب أيضاً مجموعة واسعة من المهام، بدءًا من التصنيف الثنائي وصولاً إلى التصنيف متعدد الفئات والتوصيفات المتعددة، باستخدام بيانات جمعها مساهمون عاديون وخبراء متخصصون باللغتين الإنجليزية والعربية. وقد شكلت مجموعة البيانات القانونية المعروفة باسم “TAG” واحدة من أبرز هذه المجموعات، حيث تعتمد على طلبات حقيقية للمساعدة القانونية قام بتوصيفها محامون ممارسون. ويعكس التباين داخل هذه المجموعة اختلاف التفسير القانوني الطبيعي الناتج عن تنوع خبرات وتخصصات الخبراء.
وفي خطوة منهجية متقدمة، لم يكتفِ الباحثون بالتحليل النظري، بل أجروا تقييماً قائماً على أحكام الخبراء. فقد طُلب من المحامين مقارنة مخرجات نماذج مختلفة ثنائياً لتحديد الأكثر دقة، ما أتاح إمكانية بناء ترتيب مرجعي بشري لهذه النماذج، ثم تم اختبار أي من المقاييس الآلية قادر على إعادة إنتاج هذا الترتيب بأعلى درجة من الدقة.
وتعزز هذه المقاربة مصداقية النتائج، إذ إن أي مقياس يُفترض أن يقيس جودة الأداء في بيئات غامضة يجب أن يتوافق، في نهاية المطاف، مع الحكم البشري حول ما يُعد “أفضل”. وأثبت في هذا الاختبار مقياس “Soft Micro F1” قدرته على عكس هذا الفهم، ما يدعم مكانته كأداة فعالة لالتقاط تعقيد الأحكام البشرية وتبايناتها.
وبذلك، تواصل الدراسة ترسيخ فكرة محورية مفادها أن التباين في الآراء ليس خللاً ينبغي إزالته، بل إشارة قوية يجب فهمها واستثمارها – وهو تحول قد يعيد صياغة كيفية تطوير نظم الذكاء الاصطناعي وتقييمها في المستقبل.
لطالما اعتُبرت اختلافات التصنيف في أبحاث الذكاء الاصطناعي مجرد “شوائب” في البيانات يجب تصحيحها، من خلال فلترتها وتوحيد آراء المصنّفين واستبعاد الحالات الاستثنائية، على أمل الوصول إلى الحقيقة المطلقة. غير أن الواقع العملي للكثير من المهام يختلف تماماً عن معايير تصنيف الصور التقليدية، إذ تتطلب هذه المهام تفسيراً دقيقاً وفهماً للسياق وخبرة متخصصة، وفي بعض الأحيان قبول تعدد الإجابات كجزء طبيعي من العملية.
وبناءً على ذلك، أصبح من الضروري أن تصمم النماذج الذكية لتعمل ضمن أطر تدريب وتقييم تعترف بأن البشر لا يتفقون دائماً على نفس الحكم. فعندما يُنظر إلى التباين البشري على أنه إشارة ذات قيمة، تصبح خيارات التصميم أكثر تعقيداً، ويضطر الباحثون إلى تحديد ما إذا كان التدريب سيعتمد على التصنيفات الفردية، أو التوزيعات المجمعة، أو هياكل أكثر تنظيماً، مع اعتماد مقاييس تقييم تكافئ التداخل المنطقي بدلاً من المطابقة التامة.
ويقرّ مؤلفو الدراسة، مع هذا، بقصور النتائج المتوصل إليها، حيث اقتصرت تحليلاتهم على مجموعة بيانات قانونية خاصة ومتعددة التصنيفات، ما يقيّد قابلية تكرارها ويثير تساؤلات حول مدى القدرة على تعميمها على مجالات أخرى. ورغم هذا القصور، تقدم الدراسة طرحاً مقنعاً مفاده أن أبحاث الذكاء الاصطناعي غالبًا ما تعاملت مع يقين التصنيفات بوصفه الحالة الطبيعية، متجاهلة التباين البشري ودوره الجوهري في صنع القرار.
وإذا كانت النظم اللغوية المستقبلية ستعمل في مجالات تتسم بأحكام يكثر حولها الاختلاف، فإن تحسين النماذج وحده لن يكون كافياً. وسيصبح من الضروري تطوير طرق فعّالة لتمثيل الخلافات، والتدريب على التعامل معها وقياسها بدقة، بما يضمن أن النماذج لا تتجاهل التباين البشري، بل تعكسه وتعتمد عليه في اتخاذ القرارات. وتشير الدراسة إلى أن الطريق الأمثل قد يكمن في تقدير هذا التباين منذ البداية، بدلاً من الاستمرار في تعقيد الآليات التقنية دون النظر إلى طبيعة البشر والسياق الواقعي للمهمات.
تُظهر نماذج ناندا (Nanda) التي طوّرتها جامعة محمد بن زايد للذكاء الاصطناعي للغتين الهندية والإنجليزية أن فعالية.....
دراسة بحثية جديدة، بإشراف كلٍّ من البروفيسور ثامار سولوريو والبروفيسور مونوجيت تشودري، وبمشاركة الباحث ما بعد الدكتوراه.....
يحدّد التقرير 12 سؤالاً بحثياً جوهرياً الهدف منها توجيه جهود العشرية القادم البحثية في اتجاه تطوير ذكاء.....