كسر القيود هو أسلوب يُستخدم لجعل النماذج اللغوية الكبيرة تفعل أشياء لا يُفترض أن تقوم بها، مثل توليد معلومات مضللة، أو كشف معلومات سرية، أو كتابة برمجيات خبيثة، أو إنتاج أنواع أخرى من المحتوى الضار. وتقوم فكرة هذا الأسلوب على خداع النموذج من خلال صياغة الأوامر بطريقة تجعله يعطي إجابات ضارة على الرغم من وجود تدابير أمان تمنعه من ذلك.
لكن الباحثين لم يتمكنوا حتى الآن من فهم ما يحدث بدقة داخل الشبكات العصبية التي تقوم عليها النماذج اللغوية الكبيرة عند تعرّضها لهجمات كسر القيود، مما يصعّب مهمة وضع آليات حماية فعالة.
في هذا السياق، سلّطت دراسة حديثة أعدّها باحثون من جامعة محمد بن زايد للذكاء الاصطناعي ومؤسسات أخرى الضوء على هجمات كسر القيود، واقترحت طريقة جديدة لتعزيز الحماية ضدها. وقدّم الباحثون نتائج دراستهم في الاجتماع السنوي الثالث والستين لجمعية اللغويات الحاسوبية في فيينا. وقد شارك في إعداد الدراسة كل من لانغ جاو، وجياهوي غينغ، وشيانغليانغ زانغ، وبريسلاف ناكوف، وشيويينغ تشن.
يقول لانغ جاو، الباحث المساعد والطالب المقبل في برنامج الدكتوراة في معالجة اللغات الطبيعية بجامعة محمد بن زايد للذكاء الاصطناعي وأحد المشاركين في إعداد الدراسة: “كسر القيود مسألة أمنية بالغة الأهمية في النماذج اللغوية الكبيرة. وقدرة بعض الأشخاص على استخدام الكلمات فقط لتجاوز تدابير الأمان أمر جدير بالاهتمام”.
ويشير جاو إلى أنه يركز في أبحاثه على قابلية التفسير الآلي، وهو مجال يسعى الباحثون فيه إلى فهم كيفية عمل أنظمة الذكاء الاصطناعي من الداخل. ونظراً لعدم فهم آلية كسر القيود فهماً كاملاً حتى الآن، فهي تُعد موضوعاً مناسباً لهذا النوع من البحوث.
ورغم أن أفضل النماذج اللغوية الكبيرة المتاحة اليوم تتضمن آليات أمان قوية مصمّمة لمنع هجمات كسر القيود، إلا أن هناك العديد من النماذج الأقدم والمفتوحة المصدر المعرضة لهذه الهجمات. ومع ذلك، لا يوجد إجماع بين الباحثين حول كيفية تجاوز هذه الهجمات لتدابير الأمان.
تتكون الشبكات العصبية المستخدمة في النماذج اللغوية الكبيرة من عشرات الطبقات، لكل منها دور في تحويل المُدخلات إلى إجابات. ويعتقد بعض الباحثين أن الهجمات تؤدي إلى عمليات تنشيط ضارة في طبقات معينة من هذه الشبكات، لكنهم غير متفقين على تحديد الطبقات المسؤولة. فبعضهم يرى أن ذلك يحدث في الطبقات الأولى، فيما يشير آخرون إلى الطبقات الوسطى أو العميقة. ولو عُرِف مكان حدوث هذا بدقة، لأمكن تصميم آليات أمان أكثر فاعلية.
ويوضح جاو أنه أثناء مراجعته الأبحاث السابقة حول تفسير هجمات كسر القيود، لاحظ أن معظمها اعتمد على عدد محدود جداً من الأوامر (حوالي 100 أمر) لاختبار النماذج. كما وجد أنها تفترض إمكانية الفصل بين العينات الضارة والآمنة بصورة خطية في فضاء تمثيل النموذج. ويضيف قائلاً: “أدركت أن التفسيرات الحالية غير كافية، فقررت استخدام مجموعات بيانات كبيرة وأساليب بحث غير خطية لفهم تأثير هجمات كسر القيود”.
أنشأ جاو وفريقه مجموعة بيانات ضخمة تضم أكثر من 30 ألف أمر، جمعوا فيها عينات آمنة وعينات ضارة من مجموعات بيانات متنوعة، من بينها مجموعات صُمِّمت خصيصاً لاختبار هجمات كسر القيود. ومن خلال زيادة حجم البيانات والتخلي عن الفرضيات الخطية، توصلوا إلى نتائج جديدة.
عندما يعطي المستخدم أوامر لنموذج لغوي كبير، تؤدي هذه الأوامر إلى عمليات تنشيط في طبقات الشبكة العصبية المختلفة. وتولّد الأوامر الآمنة والأوامر الضارة وأوامر كسر القيود أنماطاً مختلفة من عمليات التنشيط في هذه الطبقات. فالأوامر الآمنة تقع ضمن نطاق آمن، أما الأوامر الضارة فتقع خارج هذا النطاق ولا يستجيب لها النموذج.
وجد جاو وفريقه أن عمليات التنشيط في أوامر كسر القيود يمكن تفسيرها على أنها نوع من الانحراف خارج حدود النطاق الآمن. كما وجدوا أن هذا الانحراف يحدث غالباً في الطبقات الدنيا والوسطى من الشبكة العصبية.
وهو يشير إلى أنه رغم شيوع الافتراضات الخطية في دراسات التفسير، فغالباً ما يُغفل هذا النهج الصورة الكاملة، مضيفاً: “إذا كنا نرغب فعلاً في فهم كيفية عمل هجمات كسر القيود، فعلينا أن نعتمد رؤية على مستوى أعلى، ويمكن تحقيق ذلك من خلال افتراضات غير خطية واستخدام مجموعات بيانات كبيرة”.
بعد توصل جاو وزملائه إلى فهم أعمق لكيفية حدوث هجمات كسر القيود، صمموا طريقة جديدة اسمها “آلية الدفاع عبر حدود الأمان” تهدف إلى تقييد عمليات التنشيط الناتجة عن أوامر كسر القيود ضمن حدود الأمان باستخدام ما يُعرف باسم “دالة الجزاء”، حيث يُطبق جزاء بسيط على عمليات التنشيط التي تقع داخل حدود الأمان، بينما يُطبق جزاء أكبر بكثير على عمليات التنشيط التي تقع خارجها.
وقد سبق لباحثين آخرين تصميم أساليب دفاع ضد هجمات كسر القيود، لكنها اعتمدت غالباً على وحدات إضافية أو تتطلب من النموذج معالجة عناصر لغوية إضافية، مما يؤدي إلى زيادة كبيرة في التكاليف الحسابية. أما جاو وفريقه فقد اختاروا طريقة رياضية لأنهم أرادوا تصميم آلية أمان تتسم بأعلى قدر ممكن من الكفاءة.
اختبر جاو وزملاؤه آلية الدفاع عبر حدود الأمان على نماذج لغوية قياسية، فوجدوا أنها فعالة في منع هجمات كسر القيود دون أن يكون لها تأثير كبير على الأداء العام للنموذج.
قيّم الفريق أداء هذه الآلية باستخدام أربعة نماذج لغوية مفتوحة المصدر (وهي “LLaMA-2-7B-Chat” و”Vicuna-7B-v1.3″ و”Qwen-1.5-0.5B-Chat” و”Vicuna-13B-v1.5″) ومجموعات بيانات معيارية. وأظهرت النتائج أنها نجحت في إحباط 98% من الهجمات، بينما لم يتجاوز التراجع في الأداء العام للنموذج في المهام العادية نسبة 2%، وهو تحسّن كبير مقارنة بأساليب أخرى قد تؤدي إلى تراجع الأداء بنسبة تصل إلى 37%.
ومع ذلك، يُقرّ جاو بأن إحدى نقاط الضعف في آلية الدفاع عبر حدود الأمان هو اعتمادها على التوافق الداخلي للنموذج مع تدابير الأمان. فإذا لم يكن للنموذج أي آليات أمان داخلية، فلن تكون هذه الآلية فعالة.
يأمل جاو مستقبلاً في تطبيق نتائج البحوث في مجال قابلية التفسير على جوانب أخرى في النماذج اللغوية الكبيرة، مثل الهلوسة والقدرات الناشئة. لكنه يؤكد أن النتائج الحالية تسهم في تعزيز فهمنا لما يحدث داخل الشبكات العصبية عندما تتعرض لهجمات كسر القيود.
ترحب أول جامعة في العالم مكرَّسة للذكاء الاصطناعي بالطلاب المتميزين من مختلف أنحاء العالم للانضمام إلى برامجها.....
باحثون من جامعة محمد بن زايد للذكاء الاصطناعي يطورون مجموعة من نماذج التعرّف الآلي على الكلام قادرة.....
فريق عمل من جامعة محمد بن زايد للذكاء الاصطناعي، يطور مجموعة بيانات جديدة قادرة على مساعدة نماذج.....