تقنية جديدة تعزز سرعة ودقة فهم المشاهد ثلاثية الأبعاد MBZUAI

إنجاز بحثي يقود الروبوتات إلى العالم الواقعي: تقنية جديدة تعزز سرعة ودقة فهم المشاهد ثلاثية الأبعاد

الثلاثاء، 11 مارس 2025

ما تزال الروبوتات، حتى اليوم، محصورة إلى حد كبير في بيئات مُحكَمة مثل خطوط الإنتاج والمستودعات. ورغم انتشار بعض التطبيقات المنزلية البسيطة، كالمكانس الروبوتية، فإن قدرة هذه الأنظمة على التعامل مع بيئات واقعية متغيرة تبقى محدودة. ويعود ذلك، في جزء كبير منه، إلى التحدي المعقد المتمثل في تصميم آلات قادرة على فهم محيط يتغير باستمرار والتفاعل معه بمرونة.

في هذا السياق، يعمل فريق من العلماء في جامعة محمد بن زايد للذكاء الاصطناعي على تطوير قدرات الآلات في التعرف إلى الأجسام وتحليل المشاهد الديناميكية بسرعة وكفاءة أعلى. وبالتعاون مع باحثين من مؤسسات دولية، توصل الفريق إلى تقنية جديدة أثبتت تفوقها من حيث الدقة والسرعة مقارنة بالأساليب السابقة، وذلك في مهمة تُعرف باسم “تجزئة المشاهد ثلاثي الأبعاد بقاموس مفتوح”، وهي إحدى أكثر التحديات تعقيداً في مجال الرؤية الحاسوبية.

قاد هذا البحث محمد الأمين بوجغرة، خريج برنامج الماجستير في الجامعة، والذي يواصل حالياً دراسته لنيل درجة الدكتوراه في الجامعة التقنية في ميونيخ. كما شارك من جامعة محمد بن زايد للذكاء الاصطناعي في إعداد الدراسة كل من أنجيلا داي، وجان لحود، وهشام شولكال، وراو محمد أنور، وسلمان خان، وفهد شهباز خان، في تعاون بحثي يعكس التكامل بين الخبرات الأكاديمية الدولية.

ومن المقرر عرض نتائج هذا العمل في جلسة شفوية ضمن فعاليات المؤتمر الدولي الثالث عشر لتمثيلات التعلم (ICLR)، الذي يُعقد في سنغافورة نهاية أبريل، وهو أحد أبرز المحافل العالمية في مجال الذكاء الاصطناعي.

ابتكار متعدد التخصصات يعيد تشكيل قدرات الروبوتات على فهم محيطها

يجسّد المسار البحثي لمحمد الأمين بوجغرة نموذجاً للتكامل بين التخصصات، إذ بدأ عمله في مجال التحكم الروبوتي قبل أن يتجه لاحقاً إلى الرؤية الحاسوبية وفهم المشاهد ثلاثية الأبعاد. ويؤكد أن التقدم الحقيقي في تطوير الروبوتات لا يمكن أن يتحقق بمعزل عن هذا التكامل، موضحاً أن “الرؤية الحاسوبية تُعنى باستخلاص المعلومات من البيئة، بينما يركّز التحكم الروبوتي على تنفيذ هذه المعلومات. ولا يمكن، برأيي، بناء أنظمة تحكم فعّالة من دون الرؤية الحاسوبية”.

وفي هذا الإطار، طوّر بوجغرة وفريقه نظاماً يحمل اسم “Open-YOLO 3D”، صُمّم لتنفيذ مهمة “تجزئة المشاهد ثلاثية الأبعاد بقاموس مفتوح”. وتتيح هذه التقنية للروبوتات التعرف إلى الأجسام داخل المشهد وتمييز كل عنصر على حدة دون التقيد بقوائم مسبقة من الفئات – فعلى سبيل المثال، إذا كُلّف روبوت بإعادة ترتيب الكراسي داخل قاعة اجتماعات، يمكنه النظام من التعرف على الكراسي كفئة عامة، وفي الوقت نفسه التعامل مع كل كرسي بوصفه شيئاً مستقلاً.

ويعتمد هذا النهج على جمع بيانات دقيقة من البيئة عبر مستشعرات متعددة. فالكاميرات توفر صوراً ثنائية الأبعاد غنية بالمعلومات التي تسهّل تصنيف العناصر، في حين تُستخدم تقنيات مثل “ليدار” لإنتاج تمثيلات ثلاثية الأبعاد على شكل “سحابة نقاط”، تتيح فهماً دقيقاً للبنية الهندسية للمشهد. غير أن التحدي الأساسي يكمن في الربط بين هذين المصدرين من البيانات، أي مواءمة السمات البصرية المستخرجة من الصور مع المعلومات المكانية التي توفرها السحابة النقطية.

ويمثّل “Open-YOLO 3D” تطويراً لمنهج سابق يُعرف باسم “OpenMask3D”، الذي كان أول من أتاح تنفيذ تجزئة ثلاثية الأبعاد دون تدريب مسبق على جميع الفئات الممكنة. وقد استند هذا النظام إلى تقنيتين رئيسيتين: نموذج “SAM” لتقسيم الأجسام في الصور، ونظام “CLIP” الذي يربط بين الصور والنصوص لفهم دلالاتها. ورغم أهميته، عانى هذا النهج من بطء ملحوظ، إذ قد يستغرق تحليل مشهد واحد ما بين خمس إلى عشر دقائق.

هذا القيد الزمني شكّل دافعاً رئيسياً لبوجغرة لتطوير حل أكثر كفاءة، قادر على الحفاظ على الدقة مع تقليص زمن المعالجة بشكل كبير. ويشير إلى أن “الانتظار لعدة دقائق قد يكون مقبولاً في بيئات ثابتة، لكنه غير عملي في الواقع الديناميكي، حيث تتغير المشاهد باستمرار مع حركة الأشخاص وتبدّل مواقع الأشياء” – ويضيف: “بدلاً من الانتظار لدقائق، نهدف إلى إنجاز التحليل في غضون ثوانٍ”.

من الأبعاد الثلاثية إلى الثنائية

تقوم الفكرة الأساسية لنظام “Open-YOLO 3D” على تحديد الأجسام داخل الصور ثنائية الأبعاد، ثم إسقاط معلومات سحابة النقاط ثلاثية الأبعاد على تلك الصور، بما ينتج تمثيلاً للمشهد يجمع بين معلومات الأجسام ومواقعها الدقيقة في الفضاء.

وبدلاً من إجراء تجزئة تفصيلية على مستوى البكسل كما في “OpenMask3D”، يعتمد النظام على ما يُعرف بـ “خرائط التوصيفات منخفضة الدقة”. وتُبنى هذه الخرائط عبر إسقاط مربعات تحديد الأجسام من كاشف ثنائي الأبعاد على الصور، ثم استبدال البكسلات داخل كل مربع بتسمية الفئة المتوقعة. بعد ذلك تُسقَط نقاط السحابة ثلاثية الأبعاد على الصور، وتكتسب التوصيفات المقابلة من هذه الخرائط. ويتيح ربط موضع التقاط الصورة بسحابة النقاط، باستخدام معاملات الكاميرا الداخلية والخارجية، دمج هذه البيانات في إطار واحد.

كما يستبدل الباحثون نموذج “CLIP” بطريقة “MVPDist” أو “توزيع التوجيه متعدد الرؤى”، التي تعمل على تجميع التسميات عبر عدة صور للمشهد نفسه. وبذلك يعتمد التصنيف النهائي لكل شيء على أكثر التوصيفات تكراراً، ما يعزز الدقة ويقلل أخطاء التنبؤ الفردي.

يقوم نظام “Open-YOLO 3D” بتجزئة الأجسام داخل المشاهد ثلاثية الأبعاد. وقد قارن الباحثون أداءه مع أحدث الأنظمة المتقدمة في هذا المجال، والمعروف باسم “Open3DIS”، وذلك باستخدام مجموعة بيانات معيارية مخصصة للاختبار. وأظهرت النتائج أن “Open-YOLO 3D” حقق دقة أعلى في تمييز الأجسام وتجزئتها مقارنة بالنظام المنافس.

دقة أعلى وسرعة أكبر في فهم المشاهد ثلاثية الأبعاد

اختبر بوجغرة وزملاؤه نظام “Open-YOLO 3D” على مجموعتين معياريتين من البيانات، وأظهرت النتائج تحقيق دقة مرتفعة إلى جانب تحسن كبير في سرعة المعالجة مقارنة بالأساليب القائمة.

ومن أبرز النتائج تسجيل متوسط دقة (mAP) بلغ 24.7% على مجموعة التحقق “ScanNet200″، وهو ما يمثل تحسناً قدره 2.3% مقارنة بمنهج آخر يُعرف باسم “Open3DIS”. والأهم من ذلك أن النظام حقق قفزة كبيرة في الأداء الزمني، إذ أصبح أسرع بنحو 16 مرة، حيث لا يستغرق سوى 22 ثانية لكل مشهد، في حين تحتاج الطرق الأخرى إلى عدة دقائق لإنجاز المهمة نفسها.

ويعلّق بوجغرة على هذه النتائج قائلًا: “كنت أتوقع أن يكون النظام أسرع، لكن ما فاجأني أكثر هو تحسنه أيضاً من ناحية الدقة”. وتشير هذه النتائج إلى فعالية “Open-YOLO 3D” في تقديم حل يجمع بين السرعة والدقة في تجزئة المشاهد ثلاثية الأبعاد، ما يمثل خطوة مهمة نحو تطبيقات أكثر كفاءة في البيئات الواقعية التي تتطلب استجابة سريعة وفهمًا دقيقًا في آن واحد.

ويضيف: “إن مثل هذه الابتكارات ستكون مفيدة بشكل خاص في المشاهد الديناميكية التي تتغير بمرور الوقت”، في إشارة إلى إمكانات هذه التقنية في دعم الجيل القادم من الأنظمة الذكية القادرة على التفاعل الفوري مع بيئات متغيرة ومعقدة.

آفاق الابتكار: نحو روبوتات أكثر استقلالية في الحياة اليومية

رغم التقدم المتسارع في مجالي التحكم الروبوتي والرؤية الحاسوبية، يؤكد بوجغرة أن الطريق ما يزال طويلاً قبل الوصول إلى روبوتات قادرة على أداء المهام المنزلية والمهنية بكفاءة شبيهة بالبشر. فهذه المهمة لا تعتمد على تحسين مجال واحد فقط، بل تتطلب تطورًا متكاملًا عبر عدة تخصصات علمية وتقنية.

ويشير إلى أن أحد أبرز القيود الحالية يتمثل في عجز الروبوتات عن تلقي أوامر عامة وتحويلها إلى خطط تنفيذية معقدة. ويضرب مثالاً على ذلك بقوله: “لا يمكنني أن أطلب من روبوت تنظيف الشقة أثناء وجودي في العمل”، موضحاً أن مثل هذه المهمة تتطلب مزيجاً من التحرك داخل البيئة المنزلية، وفهم المشهد، والتعرف إلى الأجسام، إضافة إلى قدرات استدلالية معقدة.

ويرى بوجغرة أن تطور قدرات الاستدلال لدى نماذج اللغة الكبيرة قد يفتح الباب أمام مرحلة جديدة من الاستقلالية في عمل الآلات، حيث تصبح أكثر قدرة على فهم الأوامر العامة وتحويلها إلى خطوات تنفيذية دون الحاجة إلى تعليمات دقيقة ومحددة.

ويضيف: “هذا النوع من القدرات غير متاح اليوم، لكنه قد يصبح ممكناً في المستقبل مع مزيد من الابتكارات، بحيث تتمكن الروبوتات من التنقل وتنفيذ مهام معقدة وغير محددة بوضوح”.

أخبار ذات صلة

thumbnail
الأربعاء، 06 مايو 2026

من هندسة الكهرباء إلى ريادة أبحاث الرؤية الحاسوبية

في طليعة مرحلة جديدة من أبحاث الذكاء الاصطناعي، يسعى محمد معاذ إلى الارتقاء بقدرات نماذج الرؤية الحاسوبية.....

  1. الرؤية الحاسوبية ,
  2. النماذج اللغوية الكبيرة ,
  3. النماذج التأسيسية ,
  4. الدكتوراه ,
  5. متعدد الوسائط ,
  6. حفل التخرج ,
  7. دفعة 2026 ,
اقرأ المزيد