تتعدد وتتنوع المهام التي يستعين فيها المستخدمون بالنماذج متعددة الوسائط المصممة لفهم النصوص وتحليل الصور بما في ذلك تصنيف هذه الأخيرة [الصور] وتقسيمها وفهم العناصر التي تتألف منها – وغالباً ما تكون هذه النماذج أو النظم المصممة لتحليل الصور التي يمكن لأي أحد منا التقاطها قادرة ليس فقط على تحليل أي نوع من الصور، بل أيضاً يمكنها فهم وتفسير الصور التي يتم التقاطها حتى من الأجواء المتوسطة الارتفاع والعالية.
ويندرج ضمن هذه الأخيرة صور الاستشعار عن بُعد بما فيها تلك التي يتم التقاطها بواسطة الأقمار الاصطناعية، والمُسيَّرات، وأجهزة الاستشعار الجوية الأخرى، والتي تُستخدم في مجالات مثل الإدارة البيئية، والتخطيط العمراني، والاستجابة للكوارث – والأنظمة أو نماذج الذكاء الاصطناعي القادرة على معالجة كميات كبيرة من البيانات المرئية أو المصورة بسرعة يمكن أن تكون مفيدةً جداً للأشخاص الذين يعملون في هذه المجالات.
الملاحظ – في هذا الإطار – هو أن حتى أفضل النماذج متعددة الوسائط المتوفرة حالياً ما تزال تواجه صعوبة في التعامل مع صور الاستشعار عن بُعد، حيث إن التغيرات الكبيرة في زاوية الرؤية وحجم الأشياء تجعل من الصعب على هذه الأنظمة أو النماذج تحليل وتفسير هذه الصور بدقة – وعلى الرغم من أن الباحثين المتخصصين قد طوروا نماذج متعددة الوسائط مصممة خصيصا لتحليل صور الاستشعار عن بُعد، إلا أن هذه النظم المتخصصة لا تستطيع أداء جميع المهام التي تقوم بها النماذج ذات القدرات العامة.
وقد تمكن، للمرة الأولى، فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي ومؤسسات أخرى من تطوير نموذج متعدد الوسائط يدعم القدرة على معالجة صور الاستشعار عن بُعد وتصنيفها دلالياً – يشار إلى أن قدرة النموذج متعدد الوسائط على “التصنيف الدلالي للبكسل” تعد قدرة مهمة للغاية حيث تمكن من الربط بين كل بكسل في الصورة بفئات أو مجموعات من الأشياء المحددة مثل المباني والسيارات والتوصيفات الدلالية التي تعبر عنها، وتمكن هذه القدرة المستخدمين من تحليل الصور بدقة عالية.
وعن هذا النموذج تقول أكاشا شبير، طالبة الدكتوراه في قسم الرؤية الحاسوبية بجامعة محمد بن زايد للذكاء الاصطناعي: “بفضل نموذج GeoPixel الذي طورناه تمكنا من تحقيق قفزة نوعية في اتجاه ربط المعاني والتوصيفات الدلالية في اللغة الطبيعية بمدلولاتها على مستوى البكسل في صور الاستشعار عن بُعد”.
يذكر أن أكاشا شبير هي مؤلفة مشاركة في إعداد الدراسة المتعلقة بتطوير نموذج GeoPixel، ومجموعة البيانات التي استخدمت لتدريب النموذج، بالإضافة إلى مجموعة البيانات المعيارية التي استخدمت لتقييم النماذج متعددة الوسائط في المهام الخاصة بصور الاستشعار عن بُعد. وستقدم أكاشا هي وزملاؤها بما فيهم محمد زرمي، محمد بنامون، فهد خان، وسلمان خان نتائج هذه الدراسة خلال فعاليات المؤتمر الدولي لتعلم الآلة (ICML) الذي سيقام في مدينة فانكوفر.
بحسب الدكتور سلمان خان – الباحث المشارك في الدراسة، فإن نظام GeoPixel هو تقنية مبتكرة تجمع بين القدرة على معالجة صور الاستشعار عن بُعد وإمكانيات النماذج اللغوية الكبيرة، بحيث إنه عندما يسأل المستخدم النموذج عن شيء ما في الصورة، فإنه [أي النظام] يضع تصنيفات رقمية مميزة على الأشياء ذات الصلة بالسؤال في الصورة ثم يربط هذه التصنيفات الرقمية بإجاباته النصية مما يجعل من GeoPixel أداة قوية في التحليلات التفصيلية للصور.
وعن هذه الخاصية التي يتميز بها نموذج GeoPixel يوضح الدكتور خان قائلا: “إذا سألت نموذجاً مكانياً آخر عما إذا كان هناك ثلاث سفن في صورة، قد يخبرك أن هناك ثلاث سفن، لكنه لن يخبرك أين توجد بالضبط لأن النماذج الحالية لا تدعم التصنيف الدلالي على مستوى جزئيات البكسل في الصور”.
وللتوضيح فإن صورة ملتقطة بواسطة قمر صناعي قد تغطي عدة كيلومترات، مع مبانٍ وطرق تشغل أجزاء صغيرة من الصورة الكلية، مما يجعل من الصعب على النماذج تحديد التفاصيل على عكس نموذج GeoPixel. كما أن صور الأقمار الاصطناعية غالباً ما تكون عالية الدقة.
نظام GeoPixel هو نظام متعدد الوسائط متقدم لتحليل الصور المستشعرة عن بُعد بدقة تصل إلى 4K، ويتفوق على الأنظمة الأخرى التي تعجز عن معالجة الصور الكبيرة، حيث يقسم الصور إلى أجزاء صغيرة (patches) وينشئ نسخة منخفضة الدقة للصورة الكلية، ثم يمررها إلى مشفر بصري لاستخراج الميزات التي يتم تصنيفها بما يستجيب لمتطلبات النموذج اللغوي الكبير باستخدام تقنية التكيف الجزئي منخفض الرتبة (pLoRA) لضمان التوافق بين البيانات البصرية والنصية، ويربط المخرجات النصية التي ينتجها النموذج بتصنيفات رقمية دلالية على مستوى البكسل لتحديد العناصر بدقة في الصورة، مما يجعله حلاً فعالًا لتطبيقات مثل مراقبة البيئة وتخطيط المدن.\
وعن أداء نموذج GeoPixel تؤكد أكاشا أن “السياق العام والتفاصيل مهمة في الصورة، وهذا النهج يساعد النموذج على فهم التفاصيل بدقة عالية”.
هيكلية GeoPixel المقترحة
القدرات التي يتمتع بها نموذج GeoPixel هي ليست من فراغ، بل هي ترجع إلى قوة مجموعة البيانات الجديدة التي استُخدمت في تدريبه، والتي تُسمى GeoPixelD. وتتكون هذه المجموعة من حوالي 54,000 عبارة مرتبطة بأكثر من 600,000 من المدلولات [أشياء] المصنفة رقمياً.
وتوفر هذه التصنيفات الرقمية بحسب الباحثين المشاركين في تطوير نموذج GeoPixel “أوصافاً دلالية غنية تجمع بين المعلومات السياقية على مستوى المشهد والتفاصيل الدقيقة على مستوى الأشياء” مع العلم أن معظم البيانات المستخدمة ترتبط بالبيئات الحضرية التي تشمل أشياء مثل الطرق، والمباني، والحافلات، وملاعب كرة القدم.
يذكر أن الفريق قد عمل – لأغراض تطوير نموذج GeoPixel – على اتباع منهجية متكاملة لمساعدته على فلترة مجموعة البيانات والتحقق منها – وعن هذه الخطوة ذكرت أكاشا: “بذلنا الكثير من الجهد لإنشاء مجموعة بيانات تحتوي على أوصاف باللغة الطبيعية مرتبطة بالتصنيفات الرقمية”.
اختبر الباحثون أداء GeoPixel ونماذج أخرى متعددة الوسائط في أداء مهام الفهم باستخدام مجموعة بيانات معيارية جديدة تحتوي على أكثر من 5,400 زوج من التعبيرات والتصنيفات الرقمية، فوجدوا أن GeoPixel تفوق على النماذج الأخرى في مهام مثل إنشاء المحادثات المصنفة دلالياً وتقسيم التعبيرات المرجعية.
يقول خان إنه على الرغم من أن أداء GeoPixel مثير للإعجاب، إلا أن هناك مجالات يمكن تحسين قدراته في التفكير والفهم ويأمل في أن يساهم باحثون آخرون في المشروع، حيث إن البيانات والكود الخاص بالدراسة مفتوح المصدر.
ومن جانبها تضيف أكاشا أن الإصدارات المستقبلية من GeoPixel يمكن أن تُطوَّر لتدمج أنواعاً أخرى من بيانات الاستشعار عن بُعد، مثل الصور بالأشعة تحت الحمراء ولماذا لا – في يوم من الأيام – قد يُستخدم لمساعدة العاملين في أدوار حيوية مثل إدارة البيئة والاستجابة للكوارث.
عبدالله وعبدالرحمن المرزوقي ليسا مجرد توأم يشتركان في المظهر فحسب، بل هما أيضاً يتقاسمان شغف بناء نظم.....
اقرأ المزيدمن قاعات الدراسة في جامعة محمد بن زايد للذكاء الاصطناعي.. محمد أرسلان منظور أول خريج دكتوراه في.....
مواكبة منه للتكنولوجيا الحديثة، سالم المرّي – الطالب الإماراتي الأول الذي يحصل على درجة الدكتوراه من جامعة.....