نظرية موحدة لكل ما هو مرئي

Monday, April 03, 2023

بدأت الحياة على الأرض منذ 3.7 مليار سنة. وظهرت الخلايا المستقبلة للضوء في وقت لاحق لينطلق معها تطور تدريجي من بقعة العين إلى منظار العين وفي النهاية إلى نمو العين المركّبة، بحسب ما نعتقد. وتم توثيق أول “عين”، وبالتالي أول “نظر” شبيه بحاسة النظر التي نعرفها، عند اكتشاف أولينيلس فاوليري، وهو نوع من الفصليات ثلاثية الفصوص التي كانت تعيش في مرحلة ما قبل الانفجار الكامبري.

غير أن النظر ليس الحاسة الوحيدة التي نمتلكها كما نعلم، إلا أنها تطغى على غيرها من الحواس في عالم الإنسان. لذلك، لا يمكن الاستهانة بأهمية الدور الذي تضطلع به حاسة النظر في عالم الأحياء، لاسيما عند اعتبار أثرها وأهميتها عبر التاريخ. وهذا يؤكد بالتالي على أهمية دمج النظر في أنظمة الآلات التي يتوجب عليها أن تعمل بفعالية في عالم الأحياء هذا.

لنأخذ مثلاً شارعاً عادياً في مدينة ما. تسير المركبات في هذا الشارع بسرعات متفاوتة واتجاهات مختلفة من أجل تحقيق غايات متعددة. وتكون حركة الأشخاص والحيوانات في هذا الشارع غير متزامنة إلى حد كبير. هذا وتتخلل المشهد عقبات متنوعة، منها ما هو حي ومنها ما يتمتع بقيمة عالية. وفي بعض المناطق في الدول النامية، تصل هذه الحالة من الفوضى إلى مستويات قصوى، إذ تتنقل الماشية وطلاب المدارس بين مركبات النقل الصغيرة والشاحنات والباصات.

ومتى اكتسبنا فهماً لهذه العلاقات المرئية، تستطيع الأنظمة فهم العالم الحقيقي وليس رؤيته فحسب.

البروفيسور فهد خان
أستاذ في قسم الرؤية الحاسوبية، في جامعة محمد بن زايد للذكاء الاصطناعي
وتتوفر أنظمة السير في جميع أنحاء العالم وتشمل إشارات السير واللافتات والإنارة والخطوط، لكن لا يلتزم بها السكان بالقدر نفسه إذ يعتمد الامتثال على الثقافة المحلية والفصل أو الشهر والبيئة السياسية ومجموعة كبيرة من المتغيرات الإضافية التي يصعب التنبؤ بها بدقة. أي باختصار، يتّسم العالم المرئي بـ”الفوضى”.

وبالنسبة لمصنعي الروبوتات والمركبات ذاتية القيادة، قد تؤدي هذه المشاهد الفوضوية إلى تصادمات وشل النظام أو حتى إلى وقوع كارثة. ويزداد الوضع تعقيداً بالنسبة للباحثين الذين يحاولون فهم هذه الفوضى وتطوير خوارزميات تستطيع بدورها فهم هذه الفوضى. وقد خصص البروفيسور فهد خان مسيرته المهنية لهذا الغرض بالذات.

يشغل خان منصب نائب رئيس قسم الرؤية الحاسوبية، وتمت ترقيته مؤخراً إلى منصب أستاذ بدوام كامل في قسم الرؤية الحاسوبية، في جامعة محمد بن زايد للذكاء الاصطناعي. وينصب اهتمامه البحثي على فهم هذه الفوضى على مستوى يتطلب قدراً كبيراً من الصبر والثبات لا يمتلكه الكثيرون. وتتمثل رؤيته الشاملة في تطوير فهم مفصّل للعالم المرئي بأكمله من أجل تمكين العلماء والمهندسين وعلماء الروبوتات وغيرهم من حل مختلف مهام التصور المرئي التي لها تطبيقات متعددة محتملة في العالم الحقيقي.

ويسعى خان إلى أن يمكّن تطوير الذكاء الاصطناعي الذي نسمع عنه الكثير منذ جيل تقريباً، أي المدن الذكية وأنظمة الرعاية الصحية المخصصة للمريض وحتى المركبات ذاتية القيادة بالكامل التي نرغب جميعنا بتجربتها، حتى لو كنا نعيش في مناطق حضرية ذات كثافة سكانية عالية مثل نيروبي ولاهور وشنغهاي.

ويعمل خان منذ بداية دراساته الجامعية على تطوير نظرية شاملة لذكاء آلي مرئي يستطيع أن يقوم بكامل طيف المهام المرئية التي يقوم بها البشر، بالإضافة إلى عدد من المهام التي لا يستطيع إنجازها البشر من حيث السرعة وطول الموجة ومجال الرؤية وغيرها.

ويقول خان في هذا الصدد: “يشكل تصور الآلة، أي القدرة المحددة على فهم العالم المرئي استناداً إلى مدخلات مولدة من أجهزة الاستشعار، إحدى المشاكل الأساسية التي تواجه الذكاء الاصطناعي. ويركز بحثنا على تعلم نماذج التعرف المرئي من دون توجيه يدوي أو بقدر قليل منه، وذلك لدلالات المشاهد والأشكال ثلاثية الأبعاد. وننتقل بعد ذلك إلى فهم هذه العلاقات المرئية المفصّلة عالية المستوى بين مختلف الأشياء في المشهد. ومتى اكتسبنا فهماً لهذه العلاقات المرئية، تستطيع الأنظمة فهم العالم الحقيقي وليس رؤيته فحسب.”

وبحسب خان، لقد أحرز هذا القطاع تقدماً هائلاً في مجال الروبوتية والمركبات ذاتية القيادة على سبيل المثال. هذا ونجحت النتائج التي حققها بالتعاون مع فريقه في إحراز تقدم فعلي نحو تحقيق الذكاء المرئي الكامل للآلة، وهي نتائج تساهم في تطوير نماذج جديدة ومتقدمة جداً للتعرف المرئي القائم على التعلم العميق.

ويقسّم خان هذا البحث إلى ثلاثة مجالات متداخلة. المجال الأول هو فهم نماذج التعرف المرئي المتقدمة القائمة على التعلم العميق في ما يخص المتانة والقدرة على التعميم. والمجال الثاني هو تعلم نماذج التعرف المرئي من دون توجيه يدوي من البشر أو بقدر قليل منه. والثالث هو التعرف الذي يتخطى مستوى الأمثلة ويتمكّن من فهم دلالات المحتوى المرئي الأكثر تفصيلاً.

وتجدر الإشارة إلى أن خان قد تعمّق في عمله على مختلف مشاكل الفهم المرئي على مر السنين، ولاسيما مشكلة فهم الفيديوهات. وحاز تكريمات وجوائز متعددة تقديراً لعمله البحثي، منها جائزة أفضل ورقة بحثية في المؤتمر الدولي للتعرف على الأنماط الذي نظمه معهد مهندسي الكهرباء والإلكترونيات عام 2016. ومؤخراً، تم اختيار بحثه ضمن أفضل أوراق بحثية في مؤتمر الرؤية الحاسوبية والتعرف إلى الأنماط لعام 2022، كما أنه بلغ أفضل المراتب في منافسات دولية عدة في التتبع المرئي للأشياء.

ونشر خان أكثر من 150 ورقة بحثية محكّمة في المؤتمرات، إلى جانب عدد من المقالات، ومساهماته القيمة في العديد من الكتب. وتم اقتباس منشوراته أكثر من 1000 مرة.وهو غالباً ما يترأس مجال اختصاصه في أفضل المؤتمرات حول الذكاء الاصطناعي مثل مؤتمر الرؤية الحاسوبية والتعرف إلى الأنماط ومؤتمر نظم معالجة المعلومات العصبية والمؤتمر الدولي للرؤية الحاسوبية، وفي مجلات علمية مثل مجلة عمليات تحليل الأنماط والذكاء الاصطناعي ومجلة الرؤية الحاسوبية وفهم الصور ومجلة الشبكات العصبية وأنظمة التعلم. ويشغل منصب الرئيس المشارك لبرامج المؤتمر الدولي حول تقنيات وتطبيقات حوسبة الصور الرقمية لعام 2023.

وحصل طلابه على تقدير لعملهم البحثي، كما حصل أحد طلابه في مرحلة ما بعد الدكتوراه على جائزة أفضل أطروحة دكتوراه في دول الشمال، بالإضافة إلى حصول بعض الطلاب على جوائز أفضل أطروحات الماجستير من جمعية الحاسوب في السويد. ويدعم خان طلاب مرحلة ما بعد الدكتوراه وجميع طلابه لكي ينشروا بحوثهم في أفضل المؤتمرات والمجلات، ونشر طلاب الماجستير في جامعة محمد بن زايد للذكاء الاصطناعي أولى أوراقهم في مؤتمر نظم معالجة المعلومات العصبية لعام 2022 والمؤتمر الأوروبي للرؤية الحاسوبية لعام 2022 ومؤتمر الرؤية الحاسوبية والتعرف إلى الأنماط لعام 2023.

أخبار ذات صلة

thumbnail
Tuesday, November 26, 2024

النماذج اللغوية الكبيرة وفهم انفعالات الإنسان وعواطفه

فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي وجامعة موناش يبحث في مدى قدرة النماذج اللغوية.....

  1. التعاطف ,
  2. انفعالات الإنسان ,
  3. معالجة اللغة الطبيعية ,
  4. EMNLP ,
  5. النماذج اللغوية الكبيرة ,
  6. البحوث ,
اقرأ المزيد