يستعين الكثيرون اليوم بأدوات الذكاء الاصطناعي، مثل النماذج اللغوية الكبيرة، لمساعدتهم في كتابة مختلف أنواع النصوص. ورغم أن هذه النماذج توفر سرعة وكفاءة أعلى في الكتابة، إلا أن هناك حالات يُتوقّع فيها من الأشخاص أن يكتبوا بأنفسهم دون الاستعانة بهذه التكنولوجيا القوية.
على سبيل المثال، يُتوقع من الطلاب أن يكتبوا مقالاتهم بأنفسهم، حيث تشكل هذه المقالات أساساً لقياس قدراتهم في الكتابة والتفكير النقدي. وفي الأوساط الأكاديمية، من المفترض في عملية التحكيم العلمي أن يقرأ المحكمون الأبحاث العلمية بتمعّن ويقيّمون نقاط قوتها وضعفها، ثم يعبّرون عن آرائهم بأسلوبهم الخاص.
ولكن من غير المستغرب أن يلجأ بعض الطلاب والأساتذة الجامعيون إلى النماذج اللغوية الكبيرة في مثل هذه الحالات. بل إن بعضهم تعرّض للمساءلة بسبب هذا الأمر، فيما اتُّهم آخرون باستخدام النماذج اللغوية الكبيرة من دون أن يكون ذلك صحيحاً.
فهل سيُحلّ كل هذا إذا طوّر العلماء أداةً تُحدِّد بدقةٍ ما إذا كان النص قد كُتب بالاستعانة بالآلة؟
خطا فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي ومؤسسات أخرى خطوةً جديدة على هذا الطريق من خلال تطوير أداةً جديدة لتحديد ما إذا كان النص قد تم إنشاؤه باستخدام النماذج اللغوية الكبيرة. كما اقترح الباحثون تصنيفاً جديداً للدور الذي لعبته الآلة في إنتاج النص. وقد عُرِضَت هذه النتائج مؤخراً في مؤتمر الأساليب التجريبية في معالجة اللغة الطبيعية 2024 الذي عُقد في ميامي.
يقوم النظام الذي طوره الفريق وأطلق عليه اسم LLM-DetectAIve بتصنيف النصوص إلى أربع فئات تمثّل أشكال استخدام النماذج اللغوية الكبيرة وهي: (1) تأليف بشري، (2) إنتاج آلي بشكل كامل، (3) إنتاج آلي معدل آلياً ليشبه أسلوب البشر، (4) تأليف بشري مُحرر آلياً. وتوضح يوكسيا وانغ، وهي باحثة ما بعد الدكتوراه في قسم معالجة اللغة الطبيعية بجامعة محمد بن زايد للذكاء الاصطناعي وشاركت في إعداد الدراسة البحثية، الهدف من تطوير هذا النظام بقولها: “نريد تحديد مدى تدخّل النموذج في عملية إنتاج النص”.
كما طوّرت وانغ وزملاؤها موقعاً تجريبياً لـ LLM-DetectAIve يتيح للمستخدمين إدخال النص ليُحدِّد الكاشف ما إذا كانت الآلة قد شاركت في إنتاجه. ويضم الموقع قسماً يسمى “الملعب” (Playground) يمكن للزوار استخدامه لاختبار درجة تدخل النماذج اللغوية الكبيرة في كتابة النص.
تؤكد وانغ أن الدافع وراء هذا العمل هو كثرة حالات إساءة استخدام النماذج اللغوية الكبيرة، مثل استعانة الطلاب بها لكتابة المقالات المطلوبة منهم. ولكن الطالب في مثل هذه الحالة لا يطلب عادةً من الآلة كتابة المقال ثم يسلمه مباشرة إلى أستاذه، بل يلجأ غالباً لأساليب معقدة لإخفاء دور الآلة، كأن يطلب من النموذج اللغوي الكبير دمج قصة شخصية في الإجابة، أو يُجري تعديلات جوهرية على النص الذي أنشأه النموذج، أو يطلب من النموذج إعادة صياغة النص وفق أسلوب محدد. وتعلق وانغ على ذلك قائلة: “الطلاب أذكياء، ونحن بحاجة إلى نظام أذكى”.
وتشير الدراسة إلى أنه ربما تسمح بعض المدارس للطلاب بالاستعانة بالنماذج اللغوية الكبيرة لغرض التدقيق اللغوي، ولكن من النادر أن يُسمح لهم باستخدامها في كتابة المقالات داخل الفصل. وبما أن استخدام هذه النماذج قد يكون مشروعاً في بعض الحالات، فقد أصبح من الضروري تطوير كاشف يصنّف النص بشكل أكثر تفصيلاً بدلاً من مجرد الاكتفاء بتصنيفه إلى تأليف بشري أو إنتاج آلي.
وهناك عوامل أخرى تُصعّب عملية تحديد النصوص المُنتجة آلياً، حيث يعمل المُطورون بشكل مستمر على إصدار نماذج لغوية كبيرة جديدة قد تتمكن من التفوق على الكواشف التي تدرَّبت على بياناتٍ من نماذج أقدم.
في هذا المقطع القصير، توضح ميرفت عباسي، الباحثة الزائرة في جامعة محمد بن زايد للذكاء الاصطناعي التي شاركت في إعداد الدراسة البحثية، كيفية استخدام الأداة LLM-DetectAIve.
يتطلب التعرف على دور الآلة في الكتابة تطوير كاشفات تقدّم أداءً دقيقاً مع مختلف أنواع النصوص وأساليب الكتابة. وللتغلب على هذا التحدي، طور الفريق الأداة LLM-DetectAIve باستخدام مجموعة بيانات كبيرة ومتنوعة تضم نصوصاً من مجالات متعددة، وأجرى مقارنة بين أساليب التدريب المختلفة.
استندت هذه المبادرة إلى مجموعة بيانات سابقة تسمى M4GT-Bench أنشأتها وانغ وباحثون آخرون ثم قاموا بتوسيعها عبر إضافة نصوصٍ من ستة مجالات متنوعة، مثل ويكيبيديا و”ريديت” وملخصات أبحاث علمية في منصة arXiv. وقد تجاوز عدد النصوص المضافة إلى مجموعة البيانات 300 ألف نص. لإنتاج النصوص الجديدة، استخدم الفريق عدداً من النماذج اللغوية الكبيرة الشائعة مثل GPT-4 من شركة “أوبن أيه آي”، وLLaMA 3 من شركة “ميتا”، وGemini من “جوجل”.
قامت وانغ وزملاؤها بإعادة ضبط ثلاثة كواشف (وهي RoBERTa وDeBERTa وDistilBERT) على جزءٍ من مجموعة البيانات، ثم اختبروا أداء RoBERTa وDeBERTa في المجالات الستة.
وكانت أبحاث سابقة لوانغ وزملائها قد أظهرت أن دقة الكواشف تنخفض عند اختبارها على أمثلة خارج نطاق البيانات التي تدرّبت عليها. على سبيل المثال، لو دُرّب كاشفٌ معين على مقالات ويكيبيديا ثم طُلِب منه تصنيف ملخصات أبحاث علمية، فستكون نتائجه أقل دقة مما لو طُلب منه تصنيف مقالات في نفس المجال الذي تدرب عليه. وهذا يشكّل نقطة ضعف كبيرة في التكنولوجيا، لأن المستخدمين في الحياة العملية سيقدّمون للكواشف نصوصاً من مجالات متنوعة.
للتغلب على هذه المشكلة، اقترح الفريق استراتيجيات متنوعة، من بينها تطوير كواشف خاصة لكل مجال، وكواشف عامة تعمل على كل المجالات. كما اتبعوا نهجاً يُسمى “الكاشف القائم على خصائص ثابتة”، وهو طريقة لتدريب الكاشف تهدف لتحسين دقته بصرف النظر عن المجال.
قدّم الباحثون نصوصاً للكواشف وطلبوا منها تحديد المجال وتصنيفها ضمن إحدى الفئات الأربع التي تمثل درجة تدخّل الآلة. وقد حقّق تدريب الكاشف القائم على خصائص ثابتة باستخدام RoBERTa أفضل أداء بين جميع طرق التدريب والنماذج. وتذكر وانغ وزملاؤها في الدراسة أن هذه النتيجة “تشير إلى أن الفصل بين النموذج والخصائص المرتبطة بمجال معين يؤدي إلى تحسين أدائه بشكل عام”.
كذلك قارن الباحثون أداء LLM-DetectAIve مع كواشف أخرى متاحة على الإنترنت. ورغم أن تلك الأنظمة الأخرى لا تصنف النصوص ضمن الفئات الأربع ذاتها، بل تتبع عادةً نظام تصنيف ثنائي، فقد حقّق LLM-DetectAIve دقة بنسبة 97.5%، متفوقاً على الأنظمة الأخرى، حيث سجل GPTZero دقة بنسبة 87.5%، وZeroGPT دقة بنسبة 69.17%، وSapling AI دقة بنسبة 88.33%.
على الرغم من أن أداء LLM-DetectAIve جيد حالياً، فإن الفريق يتطلع إلى تحسينه أكثر. على سبيل المثال، يفكر الفريق في كيفية تطبيق نهج الكاشف القائم على خصائص ثابتة لتحسين الأداء. كما يريد إضافة فئة خامسة وهي “نص أنشأته الآلة وحرره البشر”، إلا أن تحقيق ذلك مكلف جداً لأنه يتطلب توظيف أشخاص لتحرير النصوص المستخدمة في بيانات التدريب. كما يأمل الفريق توسيع نطاق مجموعة البيانات لتشمل لغات أخرى.
بعد نجاحه في تطوير أدوات مدعومة بالذكاء الاصطناعي تساعد في الكشف عن المعلومات المضللة والخاطئة، يركز زين.....
اقرأ المزيديحتفي العالم في 18 ديسمبر من كل عام باليوم العالمي للغة الضاد في لفتَتٍ يقف فيها العالم.....
استراتيجية جديدة لإعطاء الأوامر تسمى "الاستكشاف الموجه ذاتياً"، تساعد في تحسين أداء النماذج اللغوية الكبيرة بشكل كبير.
اقرأ المزيد