نظام جديد لكشف الصور المولّدة بالذكاء الاصطناعي - MBZUAI MBZUAI

نظام جديد لكشف الصور المولّدة بالذكاء الاصطناعي

الأربعاء، 03 ديسمبر 2025

يعتمد النهج التقليدي في تدريب أنظمة كشف الصور المولّدة بالذكاء الاصطناعي على التعلم الخاضع للإشراف، وهو أسلوب شائع في مختلف مجالات الذكاء الاصطناعي، حيث يُزوَّد النظام بمجموعات ضخمة من الصور الحقيقية والمزيفة المصنفة مسبقاً، ويتعلم منها السمات التي تميز كل فئة عن الأخرى.

ويُظهر هذا النهج فعالية في كثير من الحالات، لكنه لا ينجح دائماً. على سبيل المثال، إذا جرى تدريب نظام الكشف على صور ولّدها نموذج معين، فسينجح غالباً في كشف الصور المولّدة باستخدام ذلك النموذج تحديداً، ولكن أداءه سيتراجع بشكل ملحوظ عند إعطائه صوراً مولّدة من نموذج آخر لم تشمله بيانات التدريب.

يمثل هذا الأمر تحدياً جوهرياً، لأن تدريب أنظمة الكشف على بيانات مستمدة من جميع نماذج توليد الصور أمر غير عملي، كما يوضح الدكتور مينمينغ غونغ، الأستاذ المشارك المنتسب في قسم تعلم الآلة بجامعة محمد بن زايد للذكاء الاصطناعي، خاصة في ظل الوتيرة المتسارعة لتطوير النماذج التوليدية، حيث تظهر نماذج جديدة باستمرار.

لهذا السبب، طوّر غونغ وزملاؤه من جامعة محمد بن زايد للذكاء الاصطناعي، وجامعة هونغ كونغ للعلوم والتكنولوجيا، وجامعة هونغ كونغ المعمدانية، ومؤسسات أكاديمية أخرى، نهجاً جديداً لكشف الصور المولّدة بالذكاء الاصطناعي يُتوقع أن يُسهم في معالجة هذه الإشكالية، على الأقل في الوقت الراهن. فبدلاً من الاعتماد على التدريب باستخدام مجموعات كبيرة من الصور الحقيقية والاصطناعية، يركز هذا النهج على تحديد أنماط بنيوية عميقة لا توجد إلا في الصور الحقيقية.

شارك في إعداد الدراسة البحثية، إلى جانب غونغ، كل من يونغانغ تشانغ، وجون ني، وشينمي تيان، وكون زانغ، وبو هان. ومن المقرر أن يعرضها الفريق في الدورة التاسعة والثلاثين للمؤتمر السنوي لنظم معالجة المعلومات العصبية الذي تستضيفه مدينة سان دييغو بولاية كاليفورنيا الأمريكية.

ما الذي يميز الصورة الحقيقية؟

أطلق الباحثون على نظامهم اسم “التحقق من الاتساق” (Consistency Verification)، ويُشار إليه اختصاراً “ConV”. ويعتمد هذا النظام على مفهوم أساسي يُعرف باسم الحيّز البنيوي للبيانات. ففي فضاء عالي الأبعاد، لا تشغل تمثيلات جميع الصور الطبيعية الممكنة سوى حيّز منحنٍ صغير من هذا الفضاء يُعرف بالحيّز البنيوي، بينما تقع الصور المولّدة خارجه. وتتيح العلاقة بين التمثيلات والحيّز البنيوي إمكانية التمييز بين الصور الحقيقية والمزيفة. ولكن التحدي يكمن في عدم إمكانية قياس هذا الحيّز البنيوي بشكل مباشر.

لهذا طور الباحثون اختباراً للتحقق من الاتساق، حيث يأخذون صورة وينشئون نسخاً معدلة عنها بشكل طفيف من خلال تعديل السطوع أو التدوير أو التمويه أو خصائص أخرى. ثم تُمرَّر الصورة الأصلية ونُسخها المعدلة عبر نموذج رؤية حاسوبية اسمه “DINOv2” دُرِّب حصرياً على الصور الطبيعية، حيث تُحوَّل كل صورة إلى تمثيل رياضي، ثم يُحسب الفرق بين الصورة الأصلية وتمثيلاتها المعدّلة.

في حالة الصور الحقيقية، تبقى النسخ المعدّلة ضمن الحيّز البنيوي وتتحرك على ما يُعرف بالفضاء المماسي، بحيث يظل الفرق بين الأصل والنسخ المعدلة ضئيلاً. أما في حالة الصور المولّدة بالذكاء الاصطناعي، فإن تعديلها بنفس الطريقة يجعل النسخ المُعدلة تبتعد عن الحيّز البنيوي، ما يؤدي إلى فروق أكبر، فيصنفها النموذج على أنها صور مولّدة.

يوضح غونغ أن الميزة الكبرى لنظام “ConV” مقارنة بنهج التعلم الخاضع للإشراف تكمن في اعتماده على نمذجة توزيع بيانات الصور الطبيعية، لا توزيع بيانات الصور المُولَّدة، ويضيف قائلاً: “هذا يعني إمكانية تطبيق نهجنا على نماذج توليدية مختلفة، بل وحتى نماذج جديدة، بتكلفة أقل مقارنة بالنماذج الخاضعة للإشراف”.

وفي الوقت نفسه، يقر الباحثون أن الفارق بين الحيّز البنيوي للصور الطبيعية والصور المُولَّدة سيتقلص مع تحسن نماذج التوليد. لمعالجة هذا التحدي، طوروا نسخة مدربة من نظامهم اسمها “F-ConV” تستخدم أسلوباً يُسمى تطبيع تدفقات البيانات. ويعمل هذا الأسلوب على تحويل الحيّز البنيوي للصورة الطبيعية إلى توزيع طبيعي (توزيع جاوسي)، ما يسهل تحديد الصور المُولَّدة من خلال قياس مدى انحرافها عن هذا الحيّز.

أداء قوي لمهمة بالغة الأهمية

اختبر الباحثون النظام “ConV” على عدد من مجموعات البيانات المعيارية التي تضم صوراً مولَّدة بواسطة نماذج مختلفة، من بينها نماذج انتشار ونماذج محولات. وحقق النظام متوسط دقة كشف بلغ 87.1% (وفق مقياس المساحة تحت منحنى دقة الأداء) على نماذج التوليد ضمن المجموعة المعيارية “ImageNet”. وجاء هذا الأداء منافساً للنماذج المدربة، وأفضل بكثير من أداء النماذج غير المدربة. أما النسخة المدربة “F-ConV” فقد حققت نتائج أعلى، بمتوسط دقة بلغ 93.77%.

كما اختبر الباحثون نظامي الكشف على لقطات مأخوذة من مقاطع فيديو مولَّدة بواسطة النموذج “Sora” من شركة “أوبن أيه آي”. وبما أن هذا النموذج غير متاح للجميع، لم يتمكنوا من تدريب نظام كشف تقليدي على مخرجاته. ولكن النظامين “ConV” و”F-ConV” تفوقا على أساليب التعلم الخاضع للإشراف التي دُرِّبت على بيانات من نماذج توليدية أخرى.

ويؤكد غونغ أن النتائج فاقت التوقعات، قائلاً: “قد يظن المرء أن الأداء سيتراجع لأننا نعتمد فقط على بيانات الصور الطبيعية، لكن ذلك لم يحدث”. كما عبّر عن دهشته من قدرة النظام “ConV” على التعميم بكفاءة عالية على نماذج توليدية مختلفة.

تكتسب هذه النتائج أهمية كبيرة في ظل الحاجة المتزايدة إلى تطوير أدوات قادرة على التمييز بدقة بين المحتوى الحقيقي والمحتوى المُولَّد، لأن الصور المزيفة يمكن استخدامها لتشويه سمعة السياسيين في لحظات حساسة مثل الانتخابات، أو للإساءة إلى سمعة الأفراد وتشويه صورتهم.

ومع أن النظام “ConV” أظهر نتائج لافتة حتى من دون تدريب، يشير غونغ إلى أن التسارع الكبير في تطور الذكاء الاصطناعي يجعل من الصعب الجزم بقدرة أنظمة الكشف الحالية على التعامل مع الصور المزيفة في المستقبل. ويضيف قائلاً: “قد نصل في مرحلة ما إلى نماذج توليدية يمكنها توليد صور مطابقة للصور الطبيعية بشكل كامل”، ما يعني، بحسب رأيه، أنه سيكون على الباحثين حينها ابتكار أساليب جديدة كلياً لكشف المحتوى المُولَّد بالذكاء الاصطناعي.

أخبار ذات صلة

thumbnail
الأربعاء، 03 ديسمبر 2025

بين النظرية والتطبيق: مجموعة بيانات CausalVerse تغيّر قواعد اختبار نماذج الذكاء الاصطناعي

باحثون يطورون مجموعة بيانات معيارية جديدة تكشف أسرار العلاقات السببية في نماذج الذكاء الاصطناعي

  1. neurips ,
  2. السببية ,
  3. البحوث ,
  4. المتغيرات ,
  5. الأساس المعياري ,
  6. التعلم بالتمثيل السببي ,
  7. المؤتمرات ,
اقرأ المزيد
thumbnail
الاثنين، 01 ديسمبر 2025

دور التعلّم التعزيزي في تحسين قدرة النماذج اللغوية على الاستدلال

دراسة حديثة صادرة عن "معهد النماذج التأسيسية" تكشف دور التعلّم التعزيزي في تحسين استدلال النماذج اللغوية عبر.....

  1. المؤتمرات ,
  2. neurips ,
  3. البحوث ,
  4. النماذج اللغوية الكبيرة ,
  5. معهد النماذج التأسيسية ,
  6. K2 Think ,
  7. الاستدلال ,
اقرأ المزيد