نموذج لغوي بصري جديد لتحليل بيانات الاستشعار عن بُعد

Thursday, June 12, 2025

توفر الصور التي تلتقطها الأقمار الاصطناعية والطائرات والمُسيّرات معلومات قيّمة عن بيئة الأرض، ويستخدمها الباحثون في مجالات متعددة، من الزراعة إلى الاستجابة للكوارث وعلوم المناخ. وتُعد النماذج اللغوية البصرية أدوات واعدة يمكن أن تساعد الباحثين في تحليل كميات ضخمة من المعلومات البصرية، ولكن النماذج الحالية تواجه صعوبات في التعامل مع التنوع الكبير في البيانات التي توفرها تكنولوجيا الاستشعار عن بُعد، والتي تشمل الصور بالأشعة تحت الحمراء والرادار والصور البصرية بدقات مختلفة.

في هذا السياق، طوّر باحثون من جامعة محمد بن زايد للذكاء الاصطناعي ومركز أبحاث “IBM” ومؤسسات أخرى نموذجاً لغوياً بصرياً جديداً اسمه “EarthDial، صُمّم خصيصاً لمعالجة البيانات الجيومكانية. ويُعد هذا النموذج الأول من نوعه القادر على التعامل مع بيانات متعددة الوسائط وبدقات مختلفة، إلى جانب معالجة الصور الملتقطة في أزمنة مختلفة لرصد التغيرات البيئية.

وقد اختبر مطوّرو النموذج الجديد أداءه في أكثر من 40 مهمة شملت تصنيف الصور وتحديد الأجسام ورصد التغيرات والإجابة عن الأسئلة وتوليد نصوص لوصف الصور والمناطق المختلفة فيها، حيث أظهرت النتائج تفوقه على نماذج أخرى في عدد كبير من هذه المهام.

سيعرض الفريق نتائجه في مؤتمر الرؤية الحاسوبية والتعرف على الأنماط المنعقد حالياً في مدينة ناشفيل بولاية تينيسي الأمريكية.

نموذج لغوي بصري متخصص في بيانات الاستشعار عن بُعد

هناك نماذج لغوية بصرية عامة قادرة على تنفيذ مهام متعددة، مثل تصنيف الصور وتحديد الأجسام والإجابة عن الأسئلة البصرية، ولكنها لا تُدرَّب عادة على البيانات الجيومكانية. كما توجد نماذج لغوية بصرية متخصصة في معالجة البيانات الجيومكانية، لكن أداءها ضعيف عند التعامل مع الصور عالية الدقة ذات الأحجام المختلفة، كما أنها لا تدعم تحليل الصور متعددة الأطياف أو مقارنة الصور الملتقطة في فترات زمنية مختلفة.

هذه الفجوة هي التي دفعت الباحثين إلى تطوير النموذج “EarthDial”، حيث يقول أختر منير، الباحث في مرحلة ما بعد الدكتوراة في جامعة محمد بن زايد للذكاء الاصطناعي وأحد مطوري النموذج الجديد: “سعينا لتطوير نموذج موحّد قادر على التعامل مع البيانات الجيومكانية المعقدة وسد الفجوة بين النماذج اللغوية البصرية العامة والنماذج المتخصصة”.

يمكن استخدام النموذج “EarthDial” لتنفيذ مهام تشمل الإجابة عن الأسئلة حول الصور، وتصنيف المشاهد، وتقييم آثار الكوارث، وتصنيف أنواع الأشجار، والكشف عن انبعاثات الميثان، ورصد الجزر الحرارية الحضرية.

وقد شارك في إعداد الدراسة البحثية كل من ساغار سوني، وأكشاي دودهان، وهيام ديباري، ومستنصر فياض، ومحمد سهيل دانش، وباولو فراكارو، وكامبل واتسون، وليفينتي كلاين، وفهد خان، وسلمان خان.

طريقة عمل النموذج “EarthDial

يتكون النموذج “EarthDial” من ثلاثة مكونات رئيسية، وهي وحدة تشفير بصرية، وجهاز عرض بيرسيبترون متعدد الطبقات، ونموذج لغوي كبير. وقد صُمّمت وحدة التشفير البصرية بالاعتماد على نموذج اسمه “InternVL” جرى تعديله خصيصاً لمعالجة الصور متعددة الأطياف والصور الملتقطة في فترات زمنية مختلفة.

تُنتج تكنولوجيا الاستشعار عن بُعد صوراً بأحجام ودقّات مختلفة، مما يجعل من الصعب على نموذج واحد تحليل العناصر البصرية في هذه الصور. ولمعالجة هذه المشكلة، استخدم الباحثون استراتيجية تُعرف باسم “استراتيجية المدخلات متغيرة الدقة” تعزز قدرة النموذج على تحليل التفاصيل الدقيقة في الصور. في هذه الاستراتيجية، يختار النموذج النسبة المثلى لأبعاد الصورة من بين مجموعة من الخيارات المحددة مسبقاً، ثم يُقسّم الصور إلى أجزاء صغيرة، ويُنشئ صوراً مصغّرة بدقة أقل ليتمكن من فهم المشهد العام.

بعد ذلك، يحوّل جهاز عرض بيرسيبترون متعدد الطبقات المعلومات البصرية الخاصة بالصور إلى صيغة يمكن للنموذج اللغوي الكبير تفسيرها. ويؤكد الباحثون في دراستهم أن “استراتيجية الدمج هذه تُمكّن النموذج “EarthDial” من دمج البيانات البصرية بصيغها المختلفة مع الأوصاف النصية، مما يعزز أداءه في مهام تحليل الصور المعقدة”. أما النموذج اللغوي الكبير فقد تم تعديله من نموذج مُدرب مسبقاً يُعرف باسم “Phi-3-mini”.

يقول منير: “لم يكن هناك سابقاً نموذج موحّد. كانت النماذج السابقة تستخدم وحدات تشفير منفصلة لكل نوع من البيانات، مما يجعلها ضعيفة الكفاءة من الناحية الحسابية”.

تدريب النموذج “EarthDial

لتدريب النموذج، أنشأ الباحثون مجموعة بيانات ضخمة من الأسئلة والإجابات استخرجوها من عدة مجموعات بيانات استشعار عن بُعد، من بينها “SkyScript” و”SatlasPretrain”. وقد أطلقوا على مجموعة البيانات الجديدة اسم “EarthDial-Instruct”، وهي الأكبر من نوعها، حيث تضمّ أكثر من 11 مليون عينة.

يوضح منير أن إعداد “EarthDial-Instruct” تطلّب جهداً يدوياً كبيراً للتحقق من صحة عدد من العينات المُنتقاة من مجموعات البيانات السابقة، مؤكداً أن هذا الأمر ساعد في ضمان جودة البيانات المستخدمة في تدريب النموذج.

درّب الباحثون النموذج “EarthDial” على ثلاث مراحل. في المرحلة الأولى، تم تدريبه على ربط صور الاستشعار عن بُعد بالأوصاف النصية المتعلقة بها. وركزت المرحلة الثانية على تحسين أداء النموذج في المهام التي لم يسبق له تنفيذها، وهو ما يُعرف بالأداء في حالة عدم وجود تدريب مسبق. أما المرحلة الثالثة، فتضمنت تدريب النموذج على صور متعددة الأطياف، وصور بصرية عالية الدقة، وبيانات ناتجة عن تكنولوجيا استشعار عن بعد تُعرف باسم “رادار الفتحة الاصطناعية”.

يقول منير في سياق حديثه عن هذا النهج: “اتبعنا نهجاً متعدد المراحل في تدريب النموذج، وجرّبنا جداول تعلم مختلفة وأساليب تدريب تدريجية، لأننا كنا نريد الوصول إلى نموذج فعّال يجمع بين الكفاءة الحسابية والقدرة على تنفيذ مهام متعددة. غالباً ما يقترن تحقيق دقة عالية جداً في مهمة معينة بتراجع مستوى الأداء في مهمة أخرى. هذه هي التحديات التي كان علينا معالجتها بعناية”.

اختبار النموذج “EarthDial” والخطوات التالية

قارن الباحثون أداء النموذج “EarthDial” مع النموذجين اللغويين البصريين العامّين “GPT-4o” و”InternVL2-8B”، والنموذج المتخصص “GeoChat” في مهمة تصنيف. وقد تفوّق النموذج “EarthDial” من حيث الدقة على النماذج الأخرى في ست مجموعات بيانات، حيث كان الفارق بينه وبين أقرب نموذج له، وهو “GPT-4o”، يقارب 20 نقطة مئوية في مجموعة البيانات “BigEarthNet”.

كما تفوّق النموذج “EarthDial” على النماذج الأخرى في مهام تحديد الأجسام في الصور في أربع مجموعات بيانات مختلفة. وبشكل عام، كانت دقته أعلى بنسبة 32.5% من دقة النموذج “GPT-4o” في تصنيف الصور متعددة الأطياف.

يخطط الباحثون مستقبلاً لتحسين أداء النموذج “EarthDial” وتوسيع قدراته لتشمل مهام تحليل الصور. ويشير منير إلى أن الفريق نشر التعليمات البرمجية للنموذج، داعياً الباحثين الآخرين إلى الاستفادة منها والمساهمة في تطوير النموذج بشكل يسهم في تعزيز كفاءته مع مرور الوقت.

أخبار ذات صلة

thumbnail
Friday, June 13, 2025

أداة جديدة تقلل هلوسات النماذج اللغوية الكبيرة متعددة الوسائط

باحثون في جامعة محمد بن زايد للذكاء الاصطناعي وجامعة موناش ومؤسسات أخرى يطورون أداة جديدة اسمها "FarSight".....

  1. CVPR ,
  2. الهلوسة ,
  3. النماذج ,
  4. متعدد الوسائط ,
  5. الرؤية الحاسوبية ,
  6. النماذج اللغوية الكبيرة ,
اقرأ المزيد