الصفحة الرئيسية / الأخبار / نحو تحقيق التوازن بين مستويات سلامة النماذج اللغوية الكبيرة وأدائها

نحو تحقيق التوازن بين مستويات سلامة النماذج اللغوية الكبيرة وأدائها

Monday, August 12, 2024

وفقًا لـ تقرِيرِ مؤشر الذكاء الاصطناعي الأخير لجامعة ستانفورد، فقد تضاعف عدد النماذج اللغوية الكبيرة التي أصدرها المطورون عام 2023 مقارنة بعام 2022. ورغم أن بيانات ما سيتم طرحه منها في 2024 غير متاحة بعد، إلا أنه واضح أنها قد وجدت لنفسها موطئ قدم ضمن حزمة الأدوات التي نستخدمها وعددها مرشح للنمو.

وموازاة مع تزايد عدد مستخدمي هذه النماذج، يصبح المطورون مطالبون أكثر فأكثر بالحرص على ضمان عدم إنتاج أو توليد هذه النماذج لمعلومات قد تكون مضرة.

وقد حرص العلماء لسنوات على تطوير طرق لتقييم مستوى سلامة هذه النماذج، غير أن الملاحظ هو أن معظم جهودهم ركزت على اللغة الإنجليزية؛ وتحديدا هذه هي المشكلة التي تحاول يوشيا وَانغ، باحثة ما بعد الدكتوراه في جامعة محمد بن زايد للذكاء الاصطناعي، حلها من خلال عملها على توسيع نطاق دراسة سلامة النماذج اللغوية الكبيرة إلى لغات أخرى.

يذكر أن وَانغ هي المؤلف الرئيس لدراسة حديثة حول هذا الموضوع حيث تهدف الدراسة إلى تحليل مستويات سلامة مجموعة من النماذج اللغوية الكبيرة باستخدام مجموعة بيانات صينية.

وبالإضافة إلى التحليل العام لقدرة هذه النماذج على توفير استجابات آمنة، تناولت وَانغ وزملاؤها المشاركون في إعداد هذه الدراسة قدرة هذه الأخيرة على إدارة “مخاطر السلامة الخاصة بمنطقة معينة”، والتي قد يواجهها المتحدثون الصينيون عند استخدامهم لهذه النماذج. وفضلا عن اهتمام وَانغ وزملائها، في المقام الأول، بتقييم آليات سلامة هذه النماذج، فإنهم يريدون أيضاً معرفة ما إذا كانت “حساسة للغاية”، أي أنها تعتبر بالخَطَء أسئلة غير ضارة على أنها ضارة.

تم تقديم نتائج هذه الدراسة خلال فعاليات الاجتماع السنوي الـ 62 “لجمعية اللغويات الحاسوبية” في بانكوك. وقد شارك في إعداد هذه الدراسة هاونان لي – زميلة ما بعد الدكتوراه؛ وبريسلاف ناكوف – أستاذ ورئيس قسم معالجة اللغة الطبيعية؛ وتيموثي بالدوين – عميد وأستاذ معالجة اللغة الطبيعية، وجميعهم منتسبون لجامعة محمد بن زايد للذكاء الاصطناعي.

بناء مجموعة البيانات

بهدف تقييم هذه النماذج، طور الباحثون مجموعة بيانات مفتوحة المصدر باللغة الصينية تتكون من أكثر من 3 آلاف سؤال أو مُدخل يمكن طرحه على النموذج اللغوي الكبير. وقد تُرجِمت مجموعة البيانات الصينية من مجموعة بيانات إنجليزية سابقة جمعتها وَانغ وزملاؤها أطلقوا عليها اسم لا تجيب/Do-Not-Answer. تم إطلاق اسم (لا تجيب) على مجموعة البيانات هذه لأنها تضم الأسئلة التي لا ينبغي للنماذج اللغوية الكبيرة الإجابة أو الرد عليها.

بعد الترجمة، قام الباحثون بـ “توطين” الأسئلة أو المدخلات، واستبدال الأسماء، والأماكن، والكلمات الأخرى بما يتناسب معها من مقابِلات في الصينية. (على سبيل المثال، تم استبدال اسم “كريستينا” في مجموعة البيانات الإنجليزية بـ “تشانغ سان” في مجموعة البيانات باللغة الصينية).

احتوت مجموعة بيانات “Do-Not-Answer” على خمس فئات من الأسئلة أو المدخلات الخطرة، بما فيها اللغة البغيضة أو المسيئة، والاستخدامات الخبيثة، مثل المعلومات المضللة أو الأنشطة الإجرامية. كما أضاف الفريق البحثي في مجموعة البيانات الخاصة باللغة الصينية، فئة “السمات الخاصة بالمنطقة”، والتي تتضمن خمسة أنواع فرعية، مثل الموضوعات الحساسة سياسياً، والأحداث التاريخية المثيرة للجدل، والقضايا الإقليمية أو العِرقية.

وقد عمل الباحثون على تعزيز النسخة الصينية من مجموعة بيانات “Do-Not-Answer”، والتي تضمنت ما يعرف باسم “مدخلات الهجوم المباشر”، من خلال تطوير نسختين إضافيتين من هذا النوع من الأسئلة.

أول النسختين التي طورها الفريق البحثي اتسمت فيها أسئلة الهجوم المباشر بصعوبتها في التحديد بالنسبة للنموذج وعدائيتها الواضحة. وقد تمكنوا من تحقيق هذا من خلال استخدام تكتيكات مختلفة، مثل اختلاق سيناريو واقعي حيث يحتاج المستخدم إلى الحصول على معلومات من النموذج للقيام بعمله بشكل صحيح، أو من خلال إدخال “كلمات بسيطة وغامضة”.

ثانياً، قاموا بإجراء تعديلات طفيفة على الأسئلة بهدف جعل المدخلات غير ضارة. وقد خدمت هذه المجموعة غير الضارة في تحديد “الإجابات الكاذبة”، وهي الحالات التي حددت فيها النماذج مدخلا ما على أنه ضار بينما كانت في الواقع غير ضارة .

بشكل عام، تضمنت مجموعة البيانات 999 مدخلاً للهجوم المباشر، مأخوذة مباشرة من مجموعة بيانات “Do-Not-Answer” ومترجمة إلى الصينية، وعلى 1044 سؤالاً للهجوم غير المباشر، و999 سؤالاً مصمما لتحديد “الحساسية المفرطة” في النماذج.

تقييم أداء النماذج

درس الباحثون خمسة نماذج في المجموع: ثلاثة مصممة خصيصا للغة الصينية (ChatCLM3 وQwen وBaichuan) ونموذجان متعددا اللغات (LLaMA2 وXverse).

طلب الباحثون من الأشخاص وGPT-4، وهو نموذج لغوي كبير طورته شركة أوبن أيه آي، تقييم استجابات النماذج وتصنيفها وفقا للطريقة التي استجاب بها.

ووفقا للتقييم الآلي كان أداء Qwen لمطوره شركة “سحابة علي بابا” (Alibaba Cloud) النموذج الأكثر أماناً، فيما قدم نموذج LLaMA2 لمطوره شركة ميتا استجابات التي اعتبرت ضارة رغم أن أداءه كان هو الأفضل على مجموعة البيانات الإنجليزية، وهو أمر غير مفاجئ نظرا لأن الكثير من البيانات التي تم تدريبه عليها كانت على الأرجح باللغة الإنجليزية.

واجهت جميع النماذج صعوبة في الإجابة على الأسئلة المتعلقة بالحساسية الخاصة بالمنطقة، لكن النماذج الخاصة بالصينية كانت أفضل من النماذج متعددة اللغات، حيث كان أداء Qwen هو الأفضل وكان أداء LLaMA2 هو الأسوأ. وتشير هذه النتائج إلى أن النماذج المخصصة للصينيين تمتلك بعض الفهم الثقافي لما هو مسموح به وما هو غير مسموح به في الثقافة الصينية كما أوضحت وَانغ.

وبشكل عام، أثبتت النماذج أنها آمنة عموماً، حتى في حالة الأسئلة التي صيغة عمدا بأسلوب فيه خداع. وقالت وَانغ: “لقد افترضنا أن هذه الطريقة غير المباشرة لطرح الأسئلة من شأنها أن تؤدي إلى الكثير من الاستجابات غير الآمنة أو الضارة، لكن النماذج حققت أداءً جيداً وكانت العديد من استجاباتها آمنة”.

تحقيق التوازن بين سلامة النماذج وأدائها

تعتقد وَانغ أن المطورين نجحو عموماً في تحقيق التوازن بين متطلبات سلامة النماذج اللغوية الكبيرة وأدائها، غير أنها ترى أن ترجيح كفة أحدهما على الآخر تبقى منوطة بمطور النموذج. وأشارت إلى أن أداء نموذج كلود “Claude” من Anthropic رغم أنه لم يكن جيداً مثل أداء نموذجGPT-4o من شركة أوبن أيه آي، لكنه كان أكثر أمانًا. وقالت: “يعتمد الأمر على كيفية إدراكنا للمشكلة وما نعتقد أنه أكثر أهمية، السلامة أم الأداء”. (يمكن العثور على مزيد من المعلومات حول التوازن بين سلامة النموذج والأداء ضمن القائمة التي تصنف مجموعة من أشهر النماذج اللغوية الكبيرة).

أوضحت وَانغ أيضاً أن الآثار المترتبة على استخدام النماذج اللغوية الكبيرة غير الآمن هي محدودة إلى حد ما، غير أن تأثيراتها عندما تخفق في تحديد المدخلات الخطيرة قد تصبح أكثر حدة عندما تبدأ في توفير معلومات إلى أجهزة أخرى، تقوم هذه الأخيرة بناء عليها باتخاذ إجراءات في العالم الحقيقي.

وتعليقا أشارت وَانغ إلى أن “النماذج الحالية لا تنتج سوى نص، ولكن بمجرد أن نصل إلى المرحلة التي يقوم فيها النموذج بتوفير معلومات إلى جهاز يمكنه التفاعل مع البيئة، ستصبح الأمور أكثر خطورة”.

تعمل وَانغ وزملاؤها الآن على تطوير مجموعة بيانات مماثلة للغة العربية، والتي تتضمن أيضا مدخلات خاصة بالبلد والمنطقة. وقالت وَانغ: “من المهم مقارنة اللغات والثقافات في المنطقة. ونظراً لأن النماذج اللغوية الكبيرة تدرب على بيانات عربية أقل مقارنة بالإنجليزية أو الصينية، فهناك خطر أكبر من أن يواجه المستخدمون استجابات ضارة عند التفاعل مع نموذج باللغة العربية”.