بين الرؤية الحاسوبية وتعلم الآلة: رِيد يرسم أبرز محطات تطور رؤية الروبوتات

Thursday, May 02, 2024

يتمتع، إيان ريد، أستاذ ورئيس قسم الرؤية الحاسوبية في جامعة محمد بن زايد للذكاء الاصطناعي، بمسيرة مهنية تمتد لعقود في مجال الذكاء الاصطناعي عمل خلالها في بقاعٍ مختلفة من العالم. وقد شغل مناصب في جامعة ’أكسفورد‘، وجامعة ’أديليد‘. كما أنه وقَفَ وراء بعض من أهم التطورات التي شهدها مجال الرؤية الحاسوبية على مدار الثلاثين عاماً الماضية.

اهتم ريد، طوال مسيرته المهنية، بتطوير ما يُعرَف اليوم بـ ’الذكاء الاصطناعي المتجسد‘، والذي يشير إلى نظم الذكاء الاصطناعي التي تتفاعل مع العالم المادي في شكل روبوتات أو آلات أخرى، ويمكنها التعلم من بيئتها والتكيف معها. ويرى ريد أن ’الذكاء الاصطناعي المتجسد‘ يختلف عن ’الذكاء الاصطناعي النمطي‘ الذي نراه في نظم مثل ’شات جي بي تي‘، لأنه – يقول – يشكل المستوى التالي لأنواع الذكاء التي تتطلب فهم العالم المرئي والقدرة على التفاعل معه بذكاء.

بين الماضي والمستقبل

رغم الزخم البحثي الذي راكمه مجال ’الذكاء الاصطناعي المتجسد‘، إلا أن وتيرة تطوراته عرفت قفزةً نوعية خلال الأعوام الأخيرة.

عندما بدء ريد مسيرته المهنية، كان ’الذكاء الاصطناعي المتجسد‘ يعرف باسم ’الرؤية النشطة‘. وقد كرس ريد، في هذه الفترة، ضمن فريقه البحثي في ’أكسفورد‘، جهوده لتطوير طرق تُمكن الروبوتات من تتبع الأجسام في بيئتها. وهدفت أبحاثه بشكل رئيس إلى تمكين الروبوتات من التحكم في عمليات التتبع الدقيق للأشياء، والقدرة على التنقل داخل بيئة معينة، وفهم تفاصيل هندسة المكان الذي توجد فيه.

ويوضح ريد أن ’الذكاء الاصطناعي المتجسد‘ – منذ ذلك الوقت – عَرف تطورات مهمة مرت بثلاث محطات أساسية أسهم فيها مجتمع الباحثين في مجال الرؤية الحاسوبية عالمياً. كما ساعدت هذه الفترة في تغيير نهج العلماء في تطوير آلات تكون قادرة على إدراك العالم من حولها والتفاعل معه.

أول نقلة نوعية شهدها هذا المجال كانت في أواخر التسعينيات وأوائل القرن الحادي والعشرين، وخصوصا مع التقدم في الفهم الذي مكن من استخدام الكاميرات كأجهزة استشعار للأشكال الهندسية، ويمكنها توفير معلومات عن العلاقة المكانية بين الأشياء في مشهد ما. ويعد هذا – في حد ذاته – تحدياً كبيراً، إذ إن فهم المعلومات المكانية انطلاقاً من صور ثنائية الأبعاد يتطلب حسابات معقدة.

مما لا شك فيه أن جهود ريد وزملاؤه البحثية في جامعة أكسفورد التي دَرَّسَ فيها لمدة تجاوزت العقدين بعد حصوله على درجة الدكتوراه فيها بالتعاون مع السير مايكل برادي، أسهمت بشكل كبير في التطورات المهمة التي عرفها هذا المجال.

لقد شكل عمل ريد وزملاؤه في أكسفورد أساساً لابتكار يُعرف اختصاراً بالإنجليزية باسم Visual SLAM أو (تحديد المواقع ورسم الخرائط المتزامن)، والذي يمكّن الكاميرات المثبتة على الروبوتات من العمل كمستشعرات للأشكال الهندسية، وتساعد الروبوتات على التنقل في محيطها والحركة في بيئة ثلاثية الأبعاد. وبالنظر إلى ما تطرح حركة الروبوتات من تعقيدات تفرضها حاجتها إلى القدرة على تحديد الخصائص الفيزيائية لبيئتها وتغير موقعها في بيئة ما أثناء تحركها، فإن فكرة Visual SLAM بحسب ريد تتمثل في “الحصول على معلومات كافية في الوقت الفعلي الذي تتحرك فيه الكاميرا في بيئة ما، مما يمكنها من بناء خريطة للبيئة وتحديد موقعها فيها بالنسبة لتلك الخريطة”.

يشار إلى أن دراسات ريد المتصلة بـ “تحديد المواقع ورسم الخرائط المتزامن” Visual SLAM كان لها تأثير كبير في مجال بحوث الرؤية الحاسوبية المتجسدة.

تعلم الآلة وتطور الرؤية الحاسوبية

وموازاة مع التطور الذي عرفه مجال الرؤية الحاسوبية، تمكن الباحثون – يوضح ريد – من تعزيز المجال نفسه بآخر التطورات المحرَزةِ في مجال تعلم الآلة من خلال إدراكهم أن خوارزميات هذا الأخير – مثل الغابات العشوائية، وآدابوست، وآلة المتجهات الداعمة – يمكن لأدائها أن يتفوق على الأساليب التقليدية القائمة على برمجة مجموعة من القواعد بهدف التعرف على الأنماط والأشياء في الصور. وتابع ريد شارحاً أن “تدريب خوارزميات تعلم الآلة قد أثبت فعاليته وكفاءته في التعرف على الأنماط في الصور مقارنة مع النهج المستند إلى برمجة مجموعة من القواعد للقيام بالأمر نفسه”.

ولم تقتصر هذه التطورات على مجال الرؤية الحاسوبية فحسب، بل شهد مجال معالجة اللغة الطبيعية تطورات مشابهة بفضل ما عرفه مجال تعلم الآلة من تقدم، الأمر الذي يُبرِزُ تنوع نطاق استخدام تطبيقات تعلم الآلة وقوَّتها التحويلية وأثرها وتأثيرها في مجالات وفروع مختلفة من تكنولوجيات الذكاء الاصطناعي.

ومن بين التطورات المذكورة، لعل أكثَرَها أهمية على الإطلاق أتى في عام 2012 مع عودة ظهور التعلم العميق، وخاصة من خلال ما يعرف بتطبيق الشبكات العصبونية التلافيفية  (CNNs)، وهي هيكلية معمارية لنظم تطبيقات الذكاء الاصطناعي كان رائدها البروفيسور يان ليكون من جامعة نيويورك وشركة ميتا.

رغم أن مفهوم الشبكات العصبونية التلافيفية كان معروفاً لعقود، إلا أن أول دليل حقيقي على قوتها وفاعليتها جاء خلال مسابقة ImageNet عام 2012 بفضل جهود البروفيسور جيفري هينتون وطالبيه أليكس كريزيفسكي وإليا سوتسكيفر من جامعة تورونتو. وقد قاموا باستخدام هذه الشبكات لتحسين أداء نماذج التعرف على الصور باستخدام مجموعة بيانات ضخمة جمعتها البروفيسورة فاي فاي لي من جامعة ستانفورد وباحثون آخرون.

أطلق فريق عمل جامعة تورنتو اسم AlexNet على النموذج الذي طوروه. وقد أظهر هذا النموذج تحسناً كبيراً في دقة التصنيف مقارنة بالنماذج التي اعتمدت استخدام بنية تُعرف باسم آلة المتجهات الداعمة في المسابقات السابقة. (يشار إلى أن إنجاز مسابقة ImageNet لعام 2012 تم تناوله بإسهاب في عدة مقالات ومنشورات، من بينهاMIT Technology Review، وكتاب “Artificial Intelligence: A Guide for Thinking Humans” لكاتبتهMelanie Mitchell).

يذكر أيضاً أن تطوير الشبكات العصبونية التلافيفية تم استكماله من خلال جهود بحثية أخرى آنذاك، بما في ذلك إنشاء مجموعات بيانات ضخمة ومُصنفة – مثل ImageNet – إضافة إلى القوة الحوسبية المتزايدة باستمرار لوحدات معالجة الرسومات (GPUs)، والتي جعل استخدام هذه الشبكات أمراً عملياً أكثر.

شكلت مسابقة ImageNet – يقول ريد – لحظة تحول حاسمة شهدت، للمرة الأولى، الجمع بين مجال الرؤية الحاسوبية وتعلم الآلة. وأدركنا – يضيف – أن هذا المجال بصدد ثورة غير مسبوقة ولن يعود أبداً إلى سابق ما كان عليه. كما تبين لمن كانوا منا يعملون في مجال الروبوتات أن تعلم الآلة يمكن أن يكون له تأثير كبير في الرؤية الروبوتية أيضاً. تتضمن الرؤية الروبوتية وضع الكاميرا على الروبوتات وتتميز بمتطلبات مثل التشغيل في الوقت الفعلي والحاجة إلى التعامل مع عالم مفتوح بدلاً من مجموعة بيانات مغلقة.

بين اليوم والغد

في الوقت الذي لا ينكر فيه فضلَ تعلم الآلة على الرؤية الحاسوبية، يشكك رِيد في قدرة هذا المجال على حل كل المشكلات. كما أنه قلق بشأن اعتماد الحلول القائمة على هذه التكنولوجيا في مقابل استبعاد مجالات معرفية كثير أخرى يمكن الاستفادة منها أيضاً. وذكر رِيد موضحاً أن ما يسعى إليه هو توظيف ما نعرفه عن العالم لتعزيز وتحسين أداء الآلات في حل المشكلات، بدلاً من مجرد الاعتماد على نهج جاف نستند فيه إلى كميات هائلة من البيانات.

وأوضح ريد أنه، على سبيل المثال، حقق العلماء تقدماً كبيراً في مجالات مثل الفيزياء ونظرية التحكم الروبوتي على مر السنين. ويمكن تطبيق هذه الأفكار على تطبيقات الذكاء الاصطناعي وتعزيزها بقوة تعلم الآلة. كما دعا ريد إلى ضرورة: “توظيف مجال تعلم الآلة فيما يقوم به ببراعة أي دعم عملنا في الأمور التي نعرفها وليس كبديل لما نعرفه”.

إنه وقت مثير للعمل في مجال الذكاء الاصطناعي، ويعتقد ريد أنه على عكس مجالات الاندماج النووي أو الحوسبة الكمومية، حيث جني ثمارها متوقع له أن يكون بعد 15 عاما، في المقابل الذكاء الاصطناعي له تأثير كبير على عدد من أوجه حياتنا اليوم. كما أن الرغبة في الابتكار يجب أن تكون متوازنة مع التأثير الذي ستخلفه هذه التقنيات الجديدة على المجتمعات.

واجبنا – يقول ريد – باعتبارنا أكاديميين وباحثين في الجامعات، هو التأكد من أن العمل الذي نقوم به في تطوير الذكاء الاصطناعي سليم ومعقول من الناحية الأخلاقية. كما أننا – يضيف – لدينا مسؤولية تثقيف الجمهور حول الاستخدامات الجيدة والمشروعة للذكاء الاصطناعي والطرق التي سيجعل بها حياة الناس أفضل.

أخبار ذات صلة

thumbnail
Tuesday, November 26, 2024

النماذج اللغوية الكبيرة وفهم انفعالات الإنسان وعواطفه

فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي وجامعة موناش يبحث في مدى قدرة النماذج اللغوية.....

  1. البحوث ,
  2. النماذج اللغوية الكبيرة ,
  3. EMNLP ,
  4. معالجة اللغة الطبيعية ,
  5. انفعالات الإنسان ,
  6. التعاطف ,
اقرأ المزيد