الحاجة إلى نظم أكثر قوة للعلامات المائية الرقمية في عصر النماذج اللغوية الكبيرة

Thursday, July 17, 2025

على مدار العامين الماضيين، جرى الترويج للعلامات المائية الرقمية باعتبارها وسيلة ناجعة لكشف المحتوى المنتج بأدوات الذكاء الاصطناعي. وتقوم هذه الطريقة نظرياً على إخفاء نمط مُشفّر في كل جملة ينتجها نموذج لغوي كبير، ومن ثم منح الجهات الموثوقة مفتاحاً سرياً يتيح لها قراءة هذا النمط، مما يسمح بتحديد النصوص الزائفة بكبسة زر.

يقول نيلس لوكاس، الأستاذ المساعد في قسم تعلم الآلة في جامعة محمد بن زايد للذكاء الاصطناعي، في شرحه لهذه الطريقة: “إنها أشبه بتشفير الكلمات باستخدام مفتاح تشفير عام. العلامة المائية الرقمية هي إشارة خفية توجد في بعض المحتوى ويمكن كشفها باستخدام مفتاح سري. وإذا لم يكن لديك هذا المفتاح، سيبدو النص طبيعياً تماماً”.

وقد بدأت بعض الشركات المطورة للنماذج اللغوية الكبيرة، مثل “جوجل ديب مايند” و”ميتا” في استخدام العلامات المائية الرقمية لتعزيز الاستخدام الأخلاقي لنماذجها. ولكن هذه النماذج تواجه اليوم تهديداً من مستخدمين يسعون إلى التحايل على طرق كشف العلامة المائية الرقمية دون التأثير في جودة النص. وإذا نجحت محاولاتهم، فقد تؤدي هذه النصوص المولدة بالذكاء الاصطناعي والتي لا يمكن كشفها إلى تقويض الثقة في مصداقية المحتوى الرقمي.

هذا التهديد سيجري اختباره في واحدة من أكبر الفعاليات في مجال تعلم الآلة، وهي المؤتمر الدولي لتعلم الآلة 2025 الذي يُعقد هذا الأسبوع في فانكوفر، حيث سيعرض لوكاس، بالاشتراك مع طالب الدكتوراة تولواني صامويل أريمو، بحثاً يكشف مدى سهولة اختراق أفضل خوارزميات العلامة المائية الرقمية الموجودة اليوم.

تحطيم أسطورة العلامة المائية الرقمية بأقل من 10 دولارات

عادةً ما تشير البحوث الأكاديمية حول العلامة المائية الرقمية إلى معيار الجودة (ϵ, δ)، الذي يضمن أن إزالة العلامة المائية الرقمية ستؤدي إلى تراجع ملحوظ في جودة النص. لكن لوكاس يرى أن معظم التقييمات تفترض وجود مهاجم ساذج لم يسبق له الاطلاع على خوارزمية العلامة المائية الرقمية. ويعلّق على ذلك قائلاً: “الأمر أشبه بتصميم قفل واختباره فقط على أشخاص لا يعرفون آلية عمل الأقفال”.

لذلك تبنّى الفريق نموذج تهديد أخطر غير متصل بالشبكة. في هذا النموذج، يعرف المهاجم الخوارزمية لكنه لا يمتلك المفتاح السري، ولا يمكنه الوصول إلى واجهة برمجة التطبيقات الخاصة بالنموذج الكبير، ولديه ميزانية محدودة لا تتجاوز بضعة دولارات لتشغيل الحوسبة. في ورقة بحثية قُدمت خلال المؤتمر الدولي لتعلم الآلة 2025، يوضح الباحثان من جامعة محمد بن زايد للذكاء الاصطناعي أن استخدام نماذج إعادة صياغة مضبوطة بدقة مكّنهما من تجاوز جميع أدوات كشف العلامة المائية الرقمية التي شملها الاختبار دون تأثير يُذكر على جودة النص، وباستخدام عدد محدود من ساعات المعالجة على وحدات معالجة الرسوميات.

كانت آلية الهجوم بسيطة جداً، حيث اختير نموذج مفتوح المصدر (استخدم الفريق نسخاً من النموذجين “Llama 2″ و”Qwen” بحجم لا يتجاوز 0.5 مليار مُعامل)، ثم جرى توليد آلاف المفاتيح البديلة عبر تشغيل التعليمات البرمجية للعلامة المائية الرقمية العامة على ذلك النموذج. وبعدها قام الفريق بتخصيص النموذج الصغير ليعمل كأداة لإعادة الصياغة، بحيث يعيد كتابة أي نص مُدخل بطريقة لا تؤدي إلى تفعيل أي من المفاتيح البديلة.

استغرق توليد مجموعة تدريب مكونة من سبعة آلاف مثال، إضافة إلى ضبط النموذج، أقل من خمس ساعات على وحدات معالجة الرسوميات، بتكلفة تقل عن 10 دولارات لتشغيله عبر خدمات الحوسبة السحابية. ومع ذلك، تمكنت أداة إعادة الصياغة الناتجة من تجاوز جميع أدوات كشف العلامة المائية الرقمية التي شملتها الدراسة، ومنها “Exp” و”Dist Shift” و”Binary” و”Inverse”، بمعدل نجاح يزيد عن 96%، مع الحفاظ على الأسلوب والمعنى الأصلي للنصوص.


أظهرت تجارب لوكاس وأريمو سهولة التحايل على العلامات المائية الرقمية الحالية. تُظهر الأمثلة الثلاثة أعلاه نصوصاً تتضمن علامات مائية رقمية أُنشئت باستخدام النموذج “Llama 2”. وكلما زاد عدد العناصر اللغوية الملوّنة باللون الأحمر، قلّت فعالية العلامة المائية الرقمية. والمثال الثالث يُظهر الطريقة التي اتبعها لوكاس وأريمو، ويضم أكبر عدد من العناصر اللغوية الحمراء.

الأمر المقلق بدرجة أكبر هو أن الهجوم المصمم للتغلب على أداة الكشف “Dist Shift” نجح أيضاً في تجاوز الأداة “Binary” بنفس معدل النجاح تقريباً. يعلّق أريمو على ذلك قائلاً: “صُدمنا لمعرفة عدم وجود حاجة كبيرة للتخصيص. فعندما يتعلم المرء كيفية التحايل على إحدى أدوات كشف العلامة المائية الرقمية، يمكنه الإفلات من بقية الأدوات مجاناً تقريباً.”

استخدم الفريق في بعض تجاربه النموذج اللغوي الكبير “Llama 3.1‑70B”، الذي يفوق حجم أداة إعادة الصياغة التي استخدمها المهاجم (1.5 مليار معامل) بـ 46 مرة. أي أن الحجم ليس ضماناً للحماية. وهنا يقول لوكاس: “كانت هذه المفاجأة الثانية. فلا حاجة إلى قدرة حوسبة بمستوى “GPT-4″ لاختراق هذه الأدوات”.

على المستوى التقني، يُصاغ الهجوم على شكل مسألة تحسين تهدف إلى رفع معدل نجاح المهاجم في التغلب على أدوات كشف العلامة المائية الرقمية باستخدام مفاتيح عشوائية، مع الحد من أي تراجع في جودة النص. ورغم أن بعض أساليب التعلم التعزيزي تساعد في ذلك، إلا أن الخلاصة الأساسية تبقى أن التحايل على هذه الأدوات لا يتطلب جهداً حوسبياً كبيراً.

تُشكل العلامة المائية الرقمية أساساً للكثير من الأدوات المستخدمة في جميع جوانب حياتنا، من تصفية رسائل البريد الإلكتروني إلى كشف المعلومات المضللة في الانتخابات. وإذا كان من الممكن إزالتها في دقائق، فهذا يعني انهيار جميع هذه الأدوات. ولكن أريمو يشير إلى أزمة ثقة أوسع: “الذكاء الاصطناعي التوليدي يُعيد تشكيل نظرتنا إلى المحتوى الرقمي، لأنه لم يعد بالإمكان الثقة بأي محتوى. وقد قُدِّمت العلامة المائية الرقمية باعتبارها وسيلة لتعزيز الثقة، لكن عملنا يكشف مدى هشاشتها”.

دعوة لتطوير وسائل دفاعية أذكى

تأتي هذه النتائج في توقيت حرج، حيث تعمل الجهات التنظيمية حالياً على وضع قواعد تستند إلى العلامة المائية الرقمية للكشف عن المحتوى المنتج باستخدام أدوات الذكاء الاصطناعي. والورقة البحثية المقدّمة في المؤتمر الدولي لتعلم الآلة تقول إن الأساليب الحالية تولّد شعوراً زائفاً بالأمان، وإن أي مقترح جديد يجب أن يخضع لاختبارات صارمة منذ اليوم الأول.

تكمن إحدى نقاط الضعف الرئيسية في أن أساليب وضع العلامة المائية الرقمية الأربعة الشائعة تقوم كلها على تعديل احتمالات العناصر اللغوية على مستوى الكلمة، مما يجعلها عرضة لنفس النوع من الهجمات، كما أثبت فريق جامعة محمد بن زايد للذكاء الاصطناعي. ولمعالجة هذا الأمر، يقترح الباحثان إجراء بحوث مستقبلية في اتجاهين:

  1. تطوير علامات مائية رقمية دلالية تُشفّر المعلومات على مستوى المعنى بدلاً من مستوى العناصر اللغوية الفردية.
  2. استكشاف علامات مائية رقمية لتسلسل الأفكار تتضمن تحديد طريقة تفكير النموذج بدلاً من التركيز على مخرجاته.

وكل اتجاه منهما كفيل بإجبار المهاجمين على بذل جهد يتجاوز إعادة الصياغة الشكلية، لكنهما ما زالا تحديين مفتوحين.

أما بالنسبة للشركات التي تعتمد على العلامات المائية الرقمية، فالورقة البحثية تقدم لها ثلاثة دروس قاسية. أولها أن مبدأ الأمن القائم على السرية لم يعد صالحاً. فيجب افتراض أن الخوارزمية ستُكشف، وتصميم الأدوات على هذا الأساس. وإذا لم يكن ذلك ممكناً، فلا بد من اتخاذ تدابير إضافية لتعزيز قوة الخوارزمية.

الدرس الثاني هو أن الافتراضات المتعلقة بالميزانية خاطئة، لأن بإمكان مراهق لديه بطاقة ائتمان تنفيذ هذا النوع من الهجمات.

وثالث الدروس هو ضرورة اختبار قدرة الأدوات على الصمود في وجه هجمات يقوم بها أشخاص متمرسون. وقد أتاح لوكاس وأريمو أداة إعادة الصياغة التي طوراها بشكل مفتوح المصدر بحيث يستطيع جميع المهتمين البدء فوراً باختبار دفاعاتهم.

وفي المؤتمر الدولي لتعلم الآلة، سينضم الباحثان إلى مجموعة متزايدة من الباحثين المُشككين في فعالية العلامات المائية الرقمية، حيث تناولت أوراق بحثية أخرى في المؤتمر موضوعات مثل سرقة مفاتيح تشفير العلامات المائية الرقمية وإدراج توقيعات زائفة للإيقاع بمستخدمين أبرياء.

ومع ذلك، يؤكد الباحثان أن النتائج التي توصلا إليها لا تعني نهاية العلامات المائية الرقمية، حيث يقول لوكاس: “العلامات المائية الرقمية ليست عديمة الفائدة، بل تحتاج إلى مزيد من التطوير. فكسر أول شيفرة لم يجعل المختصين في التشفير يتخلون عن عملهم في هذا المجال. هدفنا هو الارتقاء بمستوى العلامات المائية الرقمية في المستقبل”.

لكن يبقى السؤال ما إذا كان صانعو السياسات سينتظرون الجيل التالي من هذه الأدوات. أما الآن، فكل من يعتمد على العلامات المائية الرقمية لكشف نصوص الذكاء الاصطناعي عليه إعادة النظر في مدى ثقته بهذه الطريقة.

أخبار ذات صلة

thumbnail
Tuesday, July 15, 2025

نموذج GeoPixel: نموذج جديد لتحليل الصور بدقة عالية

أكاشا شبير تستعرض خلال المؤتمر الدولي لتعلم الآلة قدرات نظام GeoPixel متعدد الوسائط الخاصة بمعالجة صور الاستشعار.....

  1. المؤتمر الدولي لتعلم الآلة ,
  2. البحوث ,
  3. الاستشعار عن بُعد ,
  4. الدكتوراه ,
  5. مجموعة البيانات ,
  6. متعدد الوسائط ,
  7. geopixel ,
  8. icml ,
  9. تعلّم الآلة ,
  10. علم الحاسوب ,
اقرأ المزيد
thumbnail
Friday, July 11, 2025

إماراتيان يُعيدان صياغةَ معنى السلامة المرورية بالذكاء الاصطناعي

عبدالله وعبدالرحمن المرزوقي ليسا مجرد توأم يشتركان في المظهر فحسب، بل هما أيضاً يتقاسمان شغف بناء نظم.....

  1. MLLMs ,
  2. تعلّم الآلة ,
  3. الخريجون ,
  4. 2025 ,
  5. حفل التخرج ,
  6. النماذج اللغوية الكبيرة متعددة الوسائط ,
اقرأ المزيد