نهج ثنائي المراحل لتعزيز أمان مولدات الصور بالذكاء الاصطناعي - MBZUAI MBZUAI

نهج ثنائي المراحل لتعزيز أمان مولدات الصور بالذكاء الاصطناعي

الأربعاء، 18 يونيو 2025

تُستخدم نماذج الانتشار التي تحوّل النصوص إلى صور على نطاق واسع لتوليد صور جديدة وفريدة إلا أنه يمكن أحياناً استغلال هذه النماذج لإنتاج محتوى غير مناسب، ما يجعل مسألة الأمان تحدياً أساسياً في هذا المجال.

ورغم الجهود المتواصلة لتطوير آليات حماية تحدّ من هذه المخاطر، يرى كارثيك ناندكومار، الأستاذ المشارك في الرؤية الحاسوبية بجامعة محمد بن زايد للذكاء الاصطناعي، أن مستويات الأمان الحالية لا تزال دون المستوى المطلوب.

 وانطلاقاً من هذا التحدي، طوّر ناندكومار، بالتعاون مع باحثين من جامعة محمد بن زايد للذكاء الاصطناعي وجامعة جونز هوبكنز ومؤسسات أخرى، إطاراً جديداً يُعرف باسم STEREO، يهدف إلى تحسين أمان هذه النماذج دون المساس بأدائها الأساسي. وقد عُرضت نتائج هذا العمل مؤخراً في مؤتمر الرؤية الحاسوبية والتعرّف على الأنماط (CVPR) الذي عُقد في مدينة ناشفيل بولاية تينيسي.

شارك في الدراسة كل من كوشيك سريفاتسان، وفهد شمشاد، ومزمّل ناصر، وفيشال إم. باتيل.

تطوير الأساليب الحالية

تعتمد إحدى أبرز الطرق المستخدمة حالياً لتعزيز أمان نماذج توليد الصور على ما يُعرف بـ”محو المفاهيم” (Concept Erasure). يستخدم الباحثون في هذا النهج التدريب العدائي لاكتشاف نقاط ضعف النموذج، من خلال دفعه عمداً إلى توليد صور غير مناسبة، بهدف تحديد المفاهيم التي ينبغي تقييدها أو حذفها. بعد رصد هذه الثغرات، تُعدَّل معلمات النموذج لفصل الروابط بين مفاهيم معينة في فضاء التمثيل النصي والبصري، مما يقلّص قدرة النموذج على إنتاج ذلك النوع من المحتوى. إلا أن هذا الحل، رغم فعاليته الجزئية، لا يخلو من مشكلات جوهرية.

فعلى الرغم من أن محو المفاهيم يحدّ من توليد المحتوى غير المناسب، فإنه قد يؤدي أيضاً إلى تراجع أداء النموذج عند التعامل مع الاستعلامات السليمة. كما أن زيادة عدد الروابط التي يجري فصلها تتسبب غالباً في مزيد من التدهور في جودة المخرجات.

إضافة إلى ذلك، لا يعالج هذا النهج جميع نقاط الضعف، إذ يمكن للمهاجمين استغلال ما يُعرف بـ”النقاط العمياء” في فضاء التضمينات النصية. وهذه النقاط لا تمثل كلمات حقيقية، بل مناطق رياضية في فضاء التمثيل يمكن أن تؤدي إلى توليد صور غير مناسبة، رغم غياب أو حذف المفاهيم الصريحة.

وفي هذا السياق، يوضح ناندكومار: “يدّعي المطوّرون أن المفاهيم غير المناسبة قد أُزيلت من النماذج، لكننا وجدنا أنه حتى مع قطع بعض الروابط بين التمثيلات النصية والبصرية، لا تزال هناك تضمينات أخرى تمكّن النموذج من توليد صور غير مناسبة”.

لمعالجة هذا القصور، قدّم الباحثون إطار STEREO بوصفه نهجاً مختلفاً يهدف إلى تحسين أمان نماذج تحويل النص إلى صورة مع الحفاظ على أدائها في الاستخدامات الطبيعية.

تعتمد المرحلة الأولى، المعروفة باسم STE (Search Thoroughly Enough)، على تدريب عدائي مكثف، حيث يُوجَّه النموذج بشكل متكرر لمحاولة توليد مفاهيم يُفترض أنها أُزيلت مسبقاً. وتُكرَّر هذه العملية بصورة منهجية لاكتشاف أكبر عدد ممكن من المفاهيم الخفية التي قد تشكّل ثغرات أمنية.

أما المرحلة الثانية، REO (Robustly Erase Once)، فتركّز على حذف المفاهيم المستهدفة دفعة واحدة، بدلاً من الحذف التدريجي المعتمد في الأساليب التقليدية. ويشكّل هذا التحول نقطة جوهرية في الإطار الجديد، إذ يقلل من التداخل السلبي بين المفاهيم المحذوفة وتلك السليمة.

ولتفادي التأثير غير المقصود على المفاهيم المرتبطة، تستخدم هذه المرحلة ما يُعرف بـ”المفاهيم المرجعية” (Anchor Concepts). فعلى سبيل المثال، إذا كان الهدف إزالة مفهوم “المظلة”، فإن حذفه بشكل مباشر قد يؤثر في مفاهيم قريبة مثل “السماء”. ولتجنّب ذلك، يحدّد الباحثون مفهوماً إيجابياً مرجعياً مثل “مظلة في السماء” إلى جانب المفهوم السلبي، مما يوجّه عملية الحذف بدقة أكبر ويحافظ على المفاهيم السليمة.

وفي هذا الإطار، يقول ناندكومار: “كان علينا إيجاد طريقة لإزالة المفاهيم الضارة مع الحفاظ على المفاهيم السليمة، ومن هنا جاءت فكرة هذا النهج ثنائي المراحل”.

وقد استخدم الفريق البحثي نموذج GPT-4 لتوليد مفاهيم مرجعية متنوعة وواسعة النطاق، مرتبطة بالمفاهيم المستهدفة بالحذف، بما يعزّز دقة العملية وفعاليتها.

أداء متفوق مقارنة بالأساليب الأخرى

لاختبار فاعلية إطار STEREO ، قارن الباحثون أداءه بعدد من أساليب محو المفاهيم باستخدام نموذج Stable Diffusion v1.4. وأظهرت النتائج تفوق STEREO على عدة طرق تقليدية في مهمة إزالة الأنماط الفنية، إلى جانب تحقيقه أداءً مماثلاً لطريقة حديثة تُعرف باسم AdvUnlearn.

وعقب ذلك، قيّم الفريق متانة النموذج في مواجهة أنواع متعددة من الهجمات، من بينها هجمات تعتمد على النصوص، وأخرى تقوم على عكس العمليات  (inversion attacks)، وهي هجمات تستهدف استغلال النقاط العمياء في النماذج. وأظهرت النتائج تحسناً ملحوظاً، حيث ارتفع متوسط المتانة بنسبة 88.89%، وهو ما اعتبره الباحثون تقدماً كبيراً في هذا المجال.

كما قيّم الباحثون مدى الحفاظ على فائدة النموذج بعد عملية الحذف باستخدام مقياسين رئيسيين CLIP score، الذي يقيس مدى توافق الصورة المولّدة مع النص المدخل، وFID score، الذي يقيس الفروق الإحصائية بين الصور الحقيقية والمولّدة. وأشارت النتائج إلى انخفاض طفيف في هذين المقياسين، بلغ 1.99 في CLIP و0.81 في FID.

ويعزو الباحثون هذا الحفاظ النسبي على الأداء إلى استخدام المفاهيم المرجعية، حيث يؤكد ناندكومار أن “المفاهيم المرجعية هي العامل الأهم للحفاظ على فائدة النموذج”.

ومع ذلك، يشير إلى أن مقاييس التقييم الحالية، ولا سيما  FID، لا تزال غير قادرة على التقاط التغيّرات الدقيقة في جودة الصور، ما يستدعي تطوير أدوات تقييم أكثر حساسية.

تعزيز أمان نماذج الانتشار مستقبلاً

وعلى الرغم من النتائج الواعدة التي حققها إطار STEREO، يقرّ ناندكومار بأن تحسين أمان النماذج لاستخدامها في التطبيقات الواقعية يظل مهمة بالغة الصعوبة. فإزالة مفهوم محدّد مثل “المظلة” أو “الكنيسة” تُعد أمراً مختلفاً جذرياً عن ضمان عدم قيام النماذج بتوليد صور مرتبطة بمفاهيم واسعة ومعقّدة مثل العنف أو خطاب الكراهية. ولمعالجة ذلك، يعمل ناندكومار وفريقه حالياً على تطوير إطار STEREO ليصبح قادراً على إزالة عدة مفاهيم غير مناسبة بكفاءة أعلى.

ومع ذلك، تبقى مسألة جعل نماذج تحويل النص إلى صورة آمنة تحدّياً مستمراً لا نهاية له. إذ يواصل المستخدمون ابتكار أساليب جديدة للتحايل على أنظمة الحماية، في حين لا تزال هناك العديد من الأنظمة المتاحة للجمهور لا تتمتع بالمستوى المطلوب من الأمان. وفي الوقت ذاته، يواصل المطوّرون بناء نماذج جديدة وإطلاقها بوتيرة متسارعة.

وحتى مع أفضل النوايا، قد يُغفل المطوّرون بعض الثغرات عند تقييم أمان أنظمتهم. وفي هذا السياق، يقول ناندكومار: “لا يمكننا الاعتماد ببساطة على ادعاءات المطوّرين بشأن الأمان، بل يجب دائماً إجراء اختبارات وتحليلات أمنية دقيقة قبل الوثوق بهذه الادعاءات”.

أخبار ذات صلة