ورقة بحثية تقترح مقياساً لمعرفة عدد الأسئلة اللازمة لاختراق نموذج ذكاء اصطناعي - MBZUAI MBZUAI

ورقة بحثية تقترح مقياساً لمعرفة عدد الأسئلة اللازمة لاختراق نموذج ذكاء اصطناعي

الأربعاء، 26 نوفمبر 2025

كل بضعة أسابيع تنتشر طريقة جديدة لاختراق أنظمة الذكاء الاصطناعي، سواء عبر صياغة ذكية للأوامر، أو استراتيجيات لعب ذاتي، أو طرق لاستخراج أوامر النظام، أو حتى استرجاع معلومات كان من المفترض أن يكون النموذج قد نسيها. هذه السيناريوهات أصبحت مألوفة، لكن ما كان ينقصها دائماً هو أداة قياس واضحة: ما مدى سرعة نجاح أي مهاجم، حتى في أفضل الظروف الممكنة، في ضوء ما يكشفه النموذج عند الإجابة على كل سؤال؟

تقدّم ورقة بحثية أعدّها الباحث ما بعد الدكتوراه في جامعة محمد بن زايد للذكاء الاصطناعي ماساهيرو كانيكو، بالتعاون مع تيم بالدوين، عميد الجامعة وأستاذ معالجة اللغة الطبيعية، وعُرِضت في مؤتمر نظم معالجة المعلومات العصبية 2025، إجابة تجمع بين البساطة والقوة، مفادها أنه إذا قسنا عدد البِتّات التي يسرّبها النموذج عند الإجابة على كل سؤال، فيمكننا التنبؤ بالحد الأدنى لعدد الأسئلة التي يحتاجها المهاجم.

تُصاغ المعادلة المستخدمة لحساب عدد البِتّات في كل سؤال على النحو التالي: لخفض معدل خطأ الهجوم إلى ε، لا بد من إجراء ما لا يقل عن log(1/ε)/I سؤالاً، حيث يمثل “I” مقدار المعلومات المتبادلة بين ما يكشفه النموذج في كل تفاعل وبين الهدف الخفي للمهاجم (سواء كان ذلك نجاح الاختراق، أو استخراج أوامر مخفية، أو استعادة نص كان من المفترض أن يكون قد أُزيل عبر آليات النسيان المتعمّد). وكلما زاد عدد البِتّات المُسرَّبة في السؤال الواحد، قلّ عدد الأسئلة المطلوبة، والعكس بالعكس. وتبرهن الورقة البحثية هذه العلاقة نظرياً، ثم تُبيّن أنها تنطبق عملياً باستخدام سبعة نماذج مختلفة وثلاثة أنواع من أساليب الهجوم.

يتحدث كانيكو عن بداية المشروع قائلاً: “تزامن العمل على هذا المشروع مع ظهور نموذج “DeepSeek”، الذي أتاح عرض عملية التفكير ضمن تطبيقات النماذج اللغوية الكبيرة. وعندها بدأت أتساءل عمّا إذا كان كشف عملية التفكير في نماذج الذكاء الاصطناعي قد يزيد من مخاطر الهجمات”.

الأساس الرياضي للفكرة

يتعامل هذا الإطار مع كل تفاعل على أنه قناة معلومات مشوَّشة تنتقل عبرها المعلومات من خاصية خفية في النموذج يرمز لها بالحرف T (مثل “هل سينجح هذا الأمر؟”) إلى إشارة قابلة للملاحظة يظهرها النظام للمستخدم، ويرمز لها بالحرف Z، وتشمل عناصر مثل العناصر اللغوية للإجابة، واحتمالات العناصر اللغوية، بل وحتى عملية التفكير الظاهرة للنموذج. ويُشار إلى مقدار المعلومات التي يوفرها كل سؤال حول الخاصية T بمعدل تسريب المعلومات I(Z; T)، ويُقاس بالبِتّات. انطلاقاً من ذلك، تتيح نظرية المعلومات الكلاسيكية وأساليب الاختبار المتسلسل اشتقاق الحد الأدنى التالي: أي مهاجم، بما في ذلك المهاجم المتكيّف الذي يتعلم من الإجابات السابقة، يحتاج إلى نحو log(1/ε)/I(Z; T) سؤال للوصول إلى معدل خطأ مقداره ε.

ويُظهر الباحثون أيضاً أن هذا الحد دقيق، حيث يستطيع اختبار نسبة الاحتمال المتسلسل أن يطابقه إلى حد كبير، مع فروق طفيفة من الرتب الدنيا. وهذا يوفّر إطاراً منهجياً لتحويل القرارات المتعلقة بواجهة المستخدم، مثل إتاحة احتمالات العناصر اللغوية أو عرض سلسلة التفكير، إلى أسطح هجوم محددة وقابلة للقياس.

يشير التحول المرحلي الذي تفرضه هذه النسبة إلى أنه إذا كان تسريب المعلومات شبه معدوم (I ≈ 0)، فإن تكلفة الهجوم ترتفع بمعدل يتناسب مع 1/ε. أما إذا حدث تسريب ولو بسيط، فتصبح التكلفة بحدود log(1/ε). وتعرض الورقة البحثية مجموعة من التجارب التي تثبت ذلك بوضوح. فعند إتاحة العناصر اللغوية للإجابة فقط، يحتاج المهاجم المُصمِّم غالباً إلى آلاف المحاولات. وعند إضافة احتمالات العناصر اللغوية، ينخفض العدد إلى مئات. أما عند الكشف عن عملية تفكير النموذج، فيكفي بضع عشرات من المحاولات. ويظهر هذا النمط في سيناريوهات متعددة، تشمل استخراج أوامر النظام، وكسر القيود، وهجمات إعادة التعلّم التي تهدف إلى استعادة محتوى كان من المفترض أن يكون النموذج قد نسيه. كما ينطبق هذا النمط أيضاً على مختلف النماذج، بدءاً من “GPT-4” من شركة “أوبن أيه آي” و”DeepSeek-R1″، وصولاً إلى أنظمة مفتوحة المصدر مثل “OLMo-2” وإصدارات “Llama-4”.

ويقدّر الباحثون مقدار التسريب في كل سؤال I(Z; T) باستخدام ثلاثة حدود دنيا معيارية متغيرة طُبِّقت من خلال نموذج “RoBERTa” ثابت، ثم يعتمدون بشكل محافظ القيمة العظمى بينها. كما أنهم يقيّمون أربعة سيناريوهات مختلفة لتسرب المعلومات، وهي العناصر اللغوية فقط، والعناصر اللغوية مع احتمالاتها، والعناصر اللغوية للإجابة مع عملية التفكير، وجميع ما سبق مجتمعاً. ونُفِّذت الهجمات باستخدام أساليب متكيّفة وأخرى غير متكيّفة تعتمد على إعادة الصياغة. ولم تتبع القانون العكسي بدقة إلا الهجمات المتكيّفة، وهو ما يشكّل تحققاً منطقياً بأن استخدام البِتّات المتسربة هو ما يدفع الهجوم نحو الحد النظري. وقد أُجريت هذه التقييمات على مستوى سبعة نماذج لغوية كبيرة وثلاث مهام مختلفة، هي تسريب أوامر النظام، وكسر القيود، وإعادة التعلّم بعد النسيان، بما يؤكد أن النتائج لا تعتمد على نموذج واحد أو أسلوب هجوم بعينه.

أهمية هذا البحث

يتناول أحد أكثر التحليلات فائدة من الناحية العملية درجة العشوائية في فك الترميز. فمن المعروف أن خفض درجة الحرارة أو تضييق نطاق أخذ العيّنات الاحتمالية يجعل المخرجات أكثر حتمية. وهنا يظهر الأثر بوضوح في صورة انتقال منتظم لتسريب المعلومات من اليمين إلى اليسار. بعبارة أخرى، كلما زادت درجة التنوع زاد التسريب، وكلما جرى تقييده أصبحت المخرجات أكثر تكراراً وأقل فائدة أحياناً، لكن في المقابل تصبح الهجمات أصعب وأكثر كلفة في التنفيذ. وتقدّم النظرية إطاراً عملياً لضبط هذه المعايير بمسؤولية. فبالنظر إلى حدّ معيّن لعدد الأسئلة المسموح بها، يمكن تحديد مقدار الشفافية الممكنة من دون الانزلاق إلى النطاق اللوغاريتمي الذي تصبح فيه الهجمات منخفضة التكلفة.

وتكشف التجارب أيضاً عن نقطة ضعف واضحة في تصميم المنتجات. فالكثير من الفرق تتيح احتمالات العناصر اللغوية لأغراض التطوير والتشخيص، في حين تُظهر فرق أخرى سلسلة الأفكار بدافع الشفافية. والورقة البحثية تقيس التكلفة المترتبة في الحالتين. فالانتقال من الاكتفاء بإظهار العناصر اللغوية فقط إلى عرض هذه العناصر مع احتمالاتها، أو إلى عرض العناصر اللغوية مع عملية التفكير، يضيف أجزاءً بسيطة من البِتّات في كل سؤال، ولكن هذه الزيادات الطفيفة تترجم عملياً إلى انخفاض كبير في عدد الأسئلة اللازمة لنجاح الهجوم.

لا يقول الباحثون إن الشفافية أمر سلبي، بل يؤكدون أن هذا العمل يوفّر لأول مرة مقياساً واضحاً للموازنة بين الشفافية والمخاطر، وأن الحذف الانتقائي غير المنهجي لا يمكن أن يكون بديلاً عن ميزانية محسوبة بعناية. وإذا كان لا بد من الكشف عن إشارات إضافية، فيمكن التعويض عن ذلك عبر فرض قيود على عدد الأسئلة وخفض درجة العشوائية في فك الترميز، بما يضمن بقاء تكلفة الهجوم المتوقعة فوق مستوى يتناسب مع نموذج التهديد المعتمد.

عندما سُئِل كانيكو عن أكثر ما فاجأه في النتائج، أجاب: “أكثر ما فاجأنا هو إمكانية صياغة الحدود الدنيا لأهداف عشوائية، مثل عمليات التفكير واحتمالات العناصر اللغوية، ضمن إطار قائم على نظرية المعلومات”.

إعادة النظر في مفهوم السلامة

بالنسبة للباحثين، يعيد هذا العمل صياغة الطريقة التي تُقارن بها خوارزميات الهجوم. فبدلاً من الاكتفاء برسم منحنيات النجاح بالمقارنة مع عدد الأسئلة الأولية، واعتبار الأسرع بينها هو “الأحدث”، يتيح هذا الإطار طرح سؤال أدق وهو: إلى أي مدى يقترب أسلوب الهجوم من الحدّ الذي تفرضه نظرية المعلومات في ظل مستوى الكشف المعتمد؟

يضع الباحثون حدوداً واضحة لهذا الطرح. فالدراسة تركز على تعقيد الأسئلة، لا على الجوانب الدلالية الدقيقة. وإذا كان نظام الإشراف أو التصنيف في الخدمة ضعيفاً، فلن يحميه ارتفاع التكلفة المعلوماتية من أخطاء بدائية. كما أن تقديرات تسريب المعلومات تعتمد على حدود مستخلصة بالتعلّم، وهي حدود محافظة لكنها تظل تقديرية. إضافة إلى ذلك، تتضمن الأنظمة الواقعية عناصر أخرى مثل قنوات التسريب المرتبطة بزمن الاستجابة، وآليات التخزين المؤقت، والضوابط الإجرائية، التي قد تزيد من التسريب أو تخففه بشكل لا تعكسه الإشارات اللغوية وحدها. ومع ذلك، فإن مفهوم “عدد البِتّات المتسرّبة في كل سؤال” يقدّم إطاراً تأسيسياً نادراً، حيث يحوّل فضاءً هجومياً واسعاً ومعقداً إلى مسألة تصميم كمية يمكن التفكير فيها انطلاقاً من مبادئ أولية، ثم اختبارها بالبيانات.

ويؤكد كانيكو أن لديه خططاً طموحة للمستقبل: “أخطط لاقتراح آليات توازن بشكل مدروس بين الشفافية ومخاطر الاستهداف الناتجة عن كشف عمليات التفكير أو احتمالات العناصر اللغوية”.

لكن ربما يكون التحول الأهم الذي تدعو إليه هذه الورقة البحثية هو الابتعاد عن التفكير الثنائي الحاد. فمسألة السلامة ليست قراراً من نوع “إظهار سلسلة الأفكار أو عدم إظهارها” أو “إتاحة الاحتمالات أو عدم إتاحتها”، بل هي مسألة موازنة محسوبة. فإذا كان النموذج يكشف مقداراً معيناً من المعلومات في كل سؤال، ويسمح بعدد محدد من الأسئلة في الساعة، فإن أقصى معدل يمكن للمهاجم أن يحرز به تقدماً يصبح محكوماً بحاصل ضرب هذين العاملين.

أخبار ذات صلة

thumbnail
الجمعة، 21 نوفمبر 2025

إرينا غوريفيتش تفوز بجائزة ميلنر 2025

إرينا غوريفيتش من جامعة محمد بن زايد للذكاء الاصطناعي تفوز بجائزة ميلنر 2025 من الجمعية الملكية البريطانية

  1. التحقق من المعلومات ,
  2. الجمعية الملكية البريطانية ,
  3. علم الحاسوب ,
  4. النماذج اللغوية الكبيرة ,
  5. معالجة اللغة الطبيعية ,
  6. جوائز ,
اقرأ المزيد
thumbnail
الجمعة، 24 أكتوبر 2025

صعود الذكاء الاصطناعي الوكيل: Lawa.AI إبداع ينطلق من الإمارات

تُظهر الشركة الناشئة التي يقودها طلاب جامعة محمد بن زايد للذكاء الاصطناعي كيف يُعيد الذكاء الاصطناعي الوكيل.....

  1. ريادة الأعمال ,
  2. النماذج اللغوية الكبيرة ,
  3. الابتكار ,
  4. الذكاء الاصطناعي الوكيل ,
اقرأ المزيد