الأقمار الصناعية تتحدث “لغة بصرية” لا يفهمها الذكاء الاصطناعي الحالي بعد - MBZUAI MBZUAI

الأقمار الصناعية تتحدث “لغة بصرية” لا يفهمها الذكاء الاصطناعي الحالي بعد

الأربعاء، 22 أكتوبر 2025

تعامل لبضع دقائق مع أي نموذج بصري-لغوي حديث، وستبدو لك تجربة استخدامه أشبه بالسحر، فمثلاً اطلب منه  إنشاء “سيارة حمراء متوقفة أمام مقهى”،  وسيبهرك بالنتيجة، أو أعطه صورة واسأله: ما الذي يحدث هنا؟ وسيقدّم لك قصة منطقية.

إلا أنه عندما تتحول زاوية النظر فجأة إلى مشهد تلتقطه الأقمار الصناعية لحيّ كامل، أو وادٍ غمرته السيول، أو ميناء حاويات عند الغسق فسرعان ما يخفت بريق ذلك السحر. إن المهام التي يحتاجها خبراء الكوارث والمناخ على أرض الواقع، مثل عدّ المباني المتضررة، والتمييز بين أنواع السفن، ورصد التغيرات بين الأسبوع الماضي واليوم، هي تحديداً النقاط التي تبدأ عندها نماذج الذكاء الاصطناعي بالتخمين.

هذه الفجوة هي ما دفع إلى إطلاق GEOBench-VLM، وهو معيار جديد قدّمه فريق مشترك من جامعة محمد بن زايد للذكاء الاصطناعي و المختبر الأوروبي لشركة آي بي إم في أوروبا وServiceNow Research وشركاء آخرين خلال المؤتمر الدولي للرؤية الحاسوبية 2025 ، والفكرة وراءه واضحة تماماً: إذا كنا نريد للذكاء الاصطناعي أن يساهم فعلاً في مراقبة الأرض، فعلينا اختباره على مهام رصد الأرض الحقيقية وبطريقة منهجية وشاملة وليس على صور من الإنترنت أو محادثات مفتوحة لا تعكس طبيعة هذا المجال.

يقدّم المؤلف المشارك في الورقة، “أختر منير” باحث ما بعد الدكتوراه في مجال الرؤية الحاسوبية بجامعة محمد بن زايد للذكاء الاصطناعي الأمر ببساطة أشد فيقول: “ما نفتقده اليوم هو استدلال موثوق يرتكز مكانياً ويأخذ الزمن في الحسبان: أن نعرف أين توجد الأشياء، وكم عددها في المشاهد شديدة الازدحام، وما الذي تغيّر بين الصور قبل الحدث وبعده”. وهذا ليس تفصيلاً نظرياً غير جوهرياً؛ فحياة المدن والغابات والمزارع ومناطق الكوارث تعتمد أساساً على العدّ، والمواقع، ورصد التغيّر.

ومن هنا يأخذ GEOBench-VLM هذه الحاجة ويحوّلها إلى مجموعة اختبارات واسعة ولكن بضوابط دقيقة، فهو يغطي ثماني فئات رئيسية تضم 31 مهمة فرعية، كلها مستمدة من الأسئلة الحقيقية التي يطرحها المحللون عند التعامل مع الصور الجوية والفضائية: تصنيف المشاهد واستخدامات الأرض؛ تصنيف الأجسام (وصولاً إلى التمييز الدقيق بين أنواع السفن والطائرات)، تحديد المواقع والعدّ الكثيف؛ العلاقات المكانية والتعبيرات الإشارية؛ التجزئة الدلالية؛ الفهم الزمني لرصد التغيّر وتقييم الأضرار؛ الاستشعار غير البصري (الصور متعددة الأطياف ورادار الفتحة التركيبية) وحتى توليد أوصاف نصية للملخصات السردية.

ويستند المعيار في جوهره إلى أكثر من 10000 توجيهاً (تعليمات) تم التحقّق منها بواسطة البشر، وجرى تجميعها من مجموعات بيانات مفتوحة ومتنوعة عبر خط معالجة يجمع بين التوليد الآلي والمراجعة اليدوية الدقيقة. وقد اعتمد الباحثون أسئلة “الاختيار من متعدد” في تقييم معظم المهام، لأن التصحيح الآلي للإجابات الحرة في هذا المجال لا يزال هشّاً وغير موثوق. وتتيح هذه الأسئلة تقييماً موضوعياً قابلاً للتوسع، كما تجعل أنماط الإخفاق سهلة الفهم.

وإذا كنت تتابع معايير النماذج البصرية اللغوية  (VLM)، فقد يخطر لك سؤال حول الفارق بين هذا المعيار وبين أدوات مثل SEED-Bench أو MMMU  أو الجهود الجغرافية السابقة مثلVLEO  (المدار الأرضي شديد الانخفاض)، والإجابة تتلخص في اتساع التغطية وجودة التمثيل. فالمعايير العامة نادراً ما تختبر ما تلتقطه الأقمار الصناعية بالفعل: أجسام صغيرة للغاية ضمن مشاهد واسعة، مستويات دقة متباينة، زوايا شمس مختلفة، والأهم من ذلك كله—البعد الزمني. أما الكثير من المعايير الجغرافية، فتتجاوز جوانب محورية مثل التغيّر متعدد الزمن، والمستشعرات غير البصرية، والتجزئة، والعدّ الكثيف. أما GEOBench-VLM فيتعامل مع كل هذه الجوانب بوضوح، ويضيف إليها طبقة من التحقق اليدوي لضمان دقة المطالبات وصحة مفاتيح الإجابات. وخلال عمليات المراجعة اليدوية، أصلح القيّمون التفاصيل الصغيرة التي يمكن أن تفسد التقييم دون أن يلاحظها أحد: )الصياغات المبهمة، والتعارضات في العلاقات المكانية، وأخطاء محاذاة الأقنعة وصناديق التحديد)، كل ذلك قبل أن تظهر النتائج على لوائح المتصدرين.

تسليط الضوء على الفجوات ونقاط الضعف

تبدو النتائج الأولية مثيرة للاهتمام. فقد اختُبرت 13 منظومة مختلفة—تشمل نماذج مفتوحة المصدر واسعة الاستخدام مثل LLaVA وQwen2-VL وInternVL-2، وأخرى متخصصة في الجيوفضاء مثل EarthDial وGeoChat وRS-LLaVA وSkySenseGPT وLHRS-Bot-Nova، إلى جانب نموذج تجاري مغلق مثل GPT-4o ، ورغم هذا التنوع، لم يتجاوز أفضل أداء إجمالي في مهام الاختيار من متعدد 41.7%، وهو تقريباً ضعف التخمين العشوائي. وبعبارة أخرى، حتى أقوى النماذج المتاحة حالياً لا تزال بعيدة عن مستوى الاعتمادية التشغيلية المطلوب للمهام الجغرافية الحرجة. وتتوزع مكامن القوة والضعف بين النماذج بطريقة منطقية: تصدر LLaVA-OneVision  مهام العدّ، بينما يبرز GPT-4o  في تصنيف الأجسام، ويتفوق EarthDial  في فهم المشاهد، ويظهر  Qwen2-VL أداءً جيداً في بعض مهام رصد الأحداث والاستشعار غير البصري. لكن  ليس هناك نموذج واحد يحقق أداءً قوياً على امتداد جميع الفئات، فيما تظل الفئات الأكثر حساسية للاستخدام الحقيقي—مثل العدّ الكثيف، والتمركز الدقيق، ورصد التغيّر قبل/بعد—هي الأكثر هشاشة حتى الآن.

وعند التعمق أكثر في تفصيل النتائج، يتضح أن دقة العدّ تتهاوى كلما ازدادت كثافة الأجسام في المشهد—سواء كانت سيارات في مواقف مركز تجاري ضخم، أو حاويات في ميناء، أو مبانٍ صغيرة مصطفّة على سفح تل. والمشكلة هنا بسيطة في ظاهرها لكنها شديدة العناد: فالنماذج تفشل في التقاط الأجسام الصغيرة، وتخلط بين العناصر المتلاصقة، وتنحرف عدديّاً عندما تكون خيارات الإجابة قريبة جداً من الحقيقة. ويجعل تحليل كثافة الأجسام هذا الخلل مرئياً بوضوح؛ إذ يتراجع الأداء خطوة بعد خطوة من المشاهد متباعدة العناصر إلى المشاهد عالية الازدحام، مع تعثر كل نموذج عند مستوى مختلف من الكثافة. وبعبارة أخرى، “عدّ خمسين عنصراً” ليس أبداً كـ “عدّ خمسة”، ولذلك يجب تصميم أنظمة الرصد الجغرافي بما يعكس هذا الواقع بدقة.

ويمثّل التمركز المكاني مشكلة أخرى في قدرات النماذج. ففي GEOBench-VLM تُختبر قدرة النماذج على فهم التعبيرات الإشارية (مثل أن يُطلب منها العثور على “الطائرة الرمادية الكبيرة قرب أسفل اليمين”، وليس أي طائرة تظهر في الصورة)وذلك عند مستويي IoU 0.25 و0.5. ودقة النتائج عبر النماذج جميعها متواضعة، باستثناء نموذج واحد مُدرّب بعناية على التمركز البصري (Sphinx) ، والذي تصدّر المهمة في كلا المستويين. أما النماذج العامة التي تتفوق عادة في التصنيف، فقد تعثرت عندما طُلب منها تحديد صندوق دقيق حول هدف صغير. ويذكّرنا هذا بنتيجة أساسية: “معرفة ما هو الشيء” تختلف تماماً عن “معرفة مكانه” وغالباً ما تكون الثانية هي الأهم في مهام مراقبة الأرض.

أما الزمن—المحور الثاني في واقع الجغرافيّات—فتبدو نتائجه متباينة. ففي المهام الزمنية مثل تطوّر المحاصيل، وتغيّر الأحواض الزراعية، واستقرار استخدام الأرض، وتصنيف الكوارث، وعدّ المباني المتضررة، يُظهر المعيار تحسّناً طفيفاً في بعض الحالات عندما تسهم اللقطات المتعددة في توفير سياق إضافي، لكنه يكشف في الوقت نفسه عن تراجع مماثل حين تتحول الإطارات الإضافية إلى ضوضاء بدلاً من كونها معلومات مفيدة.

ويقدّم GPT-4o و Qwen2-VL أداءً جيداً في بعض مهام الكوارث والأضرار، بينما يتفوّق  EarthDial في تصنيف استخدامات الأرض، لكنّ أياً من النماذج لا ينجح في استخراج إشارة زمنية طويلة المدى بشكل مستمر.  وإذا كنت قد حاولت يوماً محاذاة صور ما قبل وما بعد زلزال فوق تضاريس غير مستوية ومع زوايا شمس مختلفة، فلن تفاجئك هذه النتيجة. فمعظم “المدخلات متعددة الصور” اليوم ليست سوى دمج صور، لا استدلالاً زمنياً حقيقياً.

هناك خياران تصميميّان في هذا المعيار يستحقان التوقف عندهما لمن يعملون على تطوير النماذج. أول هذين الخيارين يتعلق بآلية توليد خيارات الإجابة في مهام العدّ؛ إذ تُنشأ الخيارات حول القيمة الحقيقية بانحرافات محسوبة بنسبة عشرين وأربعين في المئة، بحيث لا تتمكن النماذج من النجاح عبر التخلص من الخيارات الواضحة الخطأ فقط. هذا الأسلوب يجعل أي انحراف عددي أكثر وضوحاً، ويكشف هشاشة النماذج تجاه إعادة صياغة السؤال. ويقيس المعيار بدقة مقدار تغيّر أداء النموذج عند طرح السؤال بصيغ مختلفة، وقد ظهر أن بعض النماذج البارزة تتذبذب نتائجها بدرجة تفوق المتوقع.

أما الخيار الثاني، فهو أن المعيار لا يكتفي بالصور الضوئية التقليدية، بل يتضمن مهاماً تعتمد على بيانات غير بصرية تُظهر مدى تعثر النماذج العامة بغضّ النظر عن حجمها. ففي مهمة تقدير شدة الزلازل اعتماداً على هذه البيانات، تصدّر أحد النماذج المتخصصة النتائج، بينما تراجع أحد النماذج التجارية الكبرى بشكل لافت، مما يوضح ثمن الاعتماد على التدريب المستند إلى الصور المأخوذة من الإنترنت وحدها.

رفع سقف التوقعات

إذن، ما الذي يعنيه أن يكون الأداء “كافياً”؟ يقدّم منير تصوراً طموحاً لكنه محدد بوضوح: دقة تتجاوز خمسة وثمانين في المئة في مهام الاختيار من متعدد عبر مختلف الفئات، بما في ذلك مهام العدّ الكثيف، والقدرة على تحديد المواقع بدقة تتخطى سبعين في المئة عند التعامل مع الأهداف الصغيرة والمتوسطة، مع الحفاظ على أداء مستقر حتى عند إعادة صياغة المطالبات، وبقاء الخطأ العددي منخفضاً بشكل مستمر. أما الاستخدام القريب الذي يراه مناسباً، فهو نظام يعتمد وجود الإنسان في الحلقة لرسم خرائط الأضرار: يقترح النموذج عدد المباني المتضررة وحدود مناطق الغمر أو الدمار، ثم يراجع المحللون النتائج ويضبطونها، لتصدر المنتجات الرسمية في غضون دقائق بدلاً من ساعات.

ولتحقيق ذلك، يشير الباحثون إلى ثلاثة مسارات هندسية أساسية: معالجة تعتمد على تقسيم مدرك للدقة وميزات متعددة المقاييس للحفاظ على وضوح الأجسام الصغيرة دون فقدان السياق العام، وآليات تدريب حساسة للعدّ تجعل الأرقام جزءاً رئيسياً من مهمة التنبؤ، ووحدات زمنية قادرة على تحليل تسلسل الصور فعلياً عبر الزمن بدلاً من الاكتفاء بدمجها. ومع إضافة قدرات التكيف مع البيانات غير البصرية، يصبح الطريق نحو نماذج أكثر موثوقية أوضح بكثير.

المعايير ليست غاية نهائية، بل هي بمثابة قاعدة أو عقد. والعقد الذي يقدمه GEOBench-VLM واضح ومباشر: إذا كان نموذجك يدّعي الجاهزية لخدمة المدن أو المناخ أو الكوارث، فعليه أن يثبت قدرته على عدّ الأجسام الكثيفة، وتحديد المواقع الصغيرة، والاستدلال عبر الزمن، وقراءة البيانات التي تتجاوز القنوات الضوئية المعتادة، وكل ذلك تحت تقييم موضوعي ومطالبات جرى التحقق منها بشرياً.

توضح نتائج اليوم أننا ما زلنا بعيدين عن تحقيق المستوى المنشود، حتى وإن بدت بعض المكوّنات واعدة بالفعل. وقد اعتاد مجال الذكاء الاصطناعي الجغرافي على التقدم على هيئة قفزات متتالية، تظهر كلما توفّر له مقياس دقيق يُحتكم إليه. ومع هذا الإصدار، أصبح ذلك المقياس أقرب كثيراً إلى طبيعة العمل الحقيقي الذي يجريه المختصون على الأرض.

أخبار ذات صلة

thumbnail
الاثنين، 29 سبتمبر 2025

نظام MedNNS: اختيار نموذج الذكاء الاصطناعي الأمثل للصور الطبية

يسعى النظام الجديد إلى إنهاء أسلوب التجربة والخطأ في بناء نماذج الذكاء الاصطناعي للتصوير الطبي من خلال.....

  1. التصوير الطبي ,
  2. مؤتمر ,
  3. MICCAI ,
  4. الرعاية الصحية ,
اقرأ المزيد
thumbnail
الجمعة، 26 سبتمبر 2025

محاكاة التشخيص: مستشفى افتراضي لتقييم القدرات التشخيصية لأنظمة الذكاء الاصطناعي المساعدة

فريق من الباحثين في جامعة محمد بن زايد للذكاء الاصطناعي سيعرض مبادرته المدعومة بالنماذج اللغوية الكبيرة، «MedAgentSim»،.....

  1. الأنظمة المساعدة ,
  2. محاكاة ,
  3. مؤتمر ,
  4. MICCAI ,
  5. llms ,
  6. الرعاية الصحية ,
  7. النماذج اللغوية الكبيرة ,
اقرأ المزيد
thumbnail
الأربعاء، 24 سبتمبر 2025

نهج جديد لتحسين قدرة الذكاء الاصطناعي على تحليل الصور الطبية

طوّر باحثون من جامعة محمد بن زايد للذكاء الاصطناعي ومؤسسات أخرى نظامًا قادر على تحسين أداء النماذج.....

  1. النماذج البصرية-اللغوية ,
  2. التوليد المعزز بالاسترجاع ,
  3. RAG ,
  4. medical images ,
  5. التصوير الطبي ,
  6. vision-language models ,
  7. MICCAI ,
اقرأ المزيد