نحو تعزيز مستويات التفاعل الطبيعي بين الإنسان والآلة

Tuesday, October 15, 2024

عرفت كفاءة النماذج الكبيرة متعددةِ الوسائط تطوراً ملحوظاً خلال السنوات الأخيرة، حيث إنها تعززت بقدرات جمعت بين معالجة المدخلات المرئية والنصية والصوتية وفق طرق مكنتها من فهم الأوامر وأداء المهام المطلوبة بشكل لم يسبق له مثيل، غير أنها – رغم هذه التطورات – ما تزال تحديات مثل زمن الاستجابة [Latency]  ودعم لغات متعددة مطروحة.

ولكي يحقق هذا النوع من النماذج أقصى درجات الفعالية في الأداء، يجب أن تكون قادرة على الاستجابة الدقيقة باللغة التي يتحدث بها المستخدمون، وفي الوقت الفعلي تقريباً، مما يوفر لهم [المستخدمين] تجربة أكثر واقعية ويتيح لهم استعمالات وتطبيقات ذات قيمة مضافة لهذه النماذج.

يُذكر أن رفع مثل هذه التحديات شَكَّلَ بالنسبة للدكتور هشام شولاكال، الأستاذ المساعد في قسم الرؤية الحاسوبية في جامعة محمد بن زايد للذكاء الاصطناعي، مجالاً بحثياً ركز اهتمامه عليه وسيتم إلقاء الضوء على آخر مستجداته معه ومع فريقه خلال فعاليات معرض “جايتكس” 2024 في دبي خلال شهر أكتوبر.

ويشير د. شولاكال، الذي يقود العرض التوضيحي تحت عنوان Visual analytics GPT [النموذج المؤتمت للتحليل البصري للبيانات] إلى جانب أعضاء فريق العمل بما فيهم كل من محمد عرفان كورباث، وسامبال شيكار، وسهل شاجي مولابيلي، وأعضاء الهيئة التدريسية المتعاونين من الجامعة بما فيهم د. راو محمد أنور، ود. سلمان خان، ود. فهد خان قائلا: “ركزنا في عملنا البحثي على النماذج متعددة الوسائط القادرة على معالجة المدخلات المرئية والنصية والصوتية وسبل تحسين زمن استجابتها ودعمها للغات متعددة”.

وتوضيحاً يورد د. شولاكال مقارنة ويشير قائلاً: “تستغرق النماذج المتوفرة، وخاصة منها النماذج اللغوية – البصرية المتطورة، الكثير من الوقت لإعطاء استجابة”، ويلاحظ مضيفاً: “عندما يطرح المستخدم سؤالاً فإن الرد عليه أو استجابة النموذج تسجل تأخراً طفيفاً – وفي بعض الأحيان تأخراً طويلا جداً”. ويتابع شارحاً: “إذا كان هدفنا، مثلاً، هو تطوير روبوت يتفاعل بسلاسة مع محيطه، فسنكون بحاجة إلى نموذج قادر على معالجة المدخلات المكتوبة والصوتية والمرئية والقدرة على الاستجابة في الوقت الفعلي دون تأخر ملحوظ”.

“ولتسهيل التفاعل مع مختلف المستخدمين في مدن عالمية مثل أبوظبي ودبي، فسيكون من الجيد أيضاً أن يدعم هذا الروبوت القدرة على التفاعل اللفظي بلغات متعددة مثل: الإنجليزية، والعربية، والهندية، والصينية، والفرنسية، والإسبانية، والألمانية”.

“كما أننا لن نكون فقط بحاجة إلى روبوت يفهم ما يراه وما يسمعه وما يُقال له، بل سنكون أيضاً بحاجة إلى أن يكون قادراً على التواصل باستخدام الكلام الملفوظ، الذي نتفاعل به نحن كبشر مع العالم من حولنا، وهذا ما نحاول تحقيقه؛ فسواء تعلق الأمر بنظام في روبوت أو تطبيق في هاتف ذكي، فإننا نسعى إلى تحسين زمن الاستجابة ودعم لغات متعددة، وهذا سيمكننا من محاكاة محادثة طبيعية”.

الاقتراب من زمن الاستجابة الطبيعي

وعن العرض التوضيحي الذي يقوده د. شولاكال وفريقه عن المشروع المشارك في فعاليات معرض “جايتكس” يوضح: “ينقسم العرض عن مشروعنا إلى قسمين أولهما يركز على تطبيق للنموذج خاص بالهواتف الذكية، سيمكن من توجيه كاميرا الهاتف نحو شيء ما، وطرح أسئلة يجيب عنها تطبيق النموذج صوتياً”.

“أما القسم الثاني من العرض فسيركز على كلب روبوتي يُتحكم فيه باستخدام عصَا تحكم، قُمنا بدمج النموذج فيه بما جعل التحَكُم فيه يصبح صوتياً عن طريق الأوامر اللفظية، بحيث يمكن – مثلا – أمر الكلب بالرقص أو تنفيذ بعض الأمور الأخرى بأوامر صوتية”.

وعن الكلب الروبوتي يُضيف محمد عرفان كورباث، الباحث المشارك في المشروع: “بالنظر إلى ما يتمتع به من قدرة على فهم الكلام بلغات متعددة، فسيفهم ما تطلبه منه. وبفضل قدرته على الرؤية، يمكنك أن تسأله عن شيء يتعلق بما يراه، وسيصفه ويعطيك إجابة. وتعد هذه الخاصية، في العالم الحقيقي، ذات أهمية كبيرة خاصة في حال كنت – مثلا – ترغب في إرسال الروبوت للتفتيش في موقع عمل، حيث يمكنه التعرف على محيطه بصرياً، وفهم ما يراه، ووصفه، وإذا طرحت أسئلة حول ما يراه، بإمكانه التحدث إليك والرد عليك”.

وبخصوص التحديات التي واجهها تطوير النموذج، يوضح سامبال شيكار، الزميل الباحث المشارك في الجامعة نفسها، أن تطوير النموذج واجهه تحديان رئيسان: “أولهما ارتبط بالكيفية المثلى للجمع بين مختلف عناصره وصهرها في نموذج واحد؛ أما التحدي الثاني فتمثل في تحسين زمن استجابة النموذج نفسه”.

ومن جانبه، يضيف سهل شاجي مولابيلي، طالب الدكتوراه في الجامعة نفسها قائلاً: “نحن لم نحقق بعد ما نطمح إليه فعلاً والمشروع ما يزال قيد التطوير، وهدفنا هو الوصول إلى ما نسعى إلى تحقيقه – وبالتأكيد لقد حققنا تقدماً مقارنة بمستويات زمن الاستجابة التي انطلقنا عندها، ولتعزيز التطور الذي حققناه نحاول اعتماد مقاربات مختلفة”.

“وهناك تحديات عملية أخرى يجب وضعها في الاعتبار، كالميكروفون، مثلا؛ فعندما تفتحه، قد تكون هناك بعض الحالات التي يطلب فيها المستخدم من الروبوت أداء مهمة، ولكن قد تكون هناك ضوضاء في الخلفية. والسؤال المطروح هنا، هو إلى أي مدى يمكن للنموذج التعامل مع هذه الضوضاء؟ وهل سيتأثر بشخص يتحدث في الخلفية؟”.

وعن هذه التحديات يوضح شولاكال: “ما نحاول القيام به هو فعلاً طَمُوحٌ، ولا نتوقع الكمال على الفور، لأن هذا هو حال الإصدارات الأولية للابتكارات”، مضيفا أن: “الفعاليات مثل معرض ’جايتكس‘ تشكل بالنسبة لنا فرص رائعة لقيام بعروض توضيحية لأنها لا تمنحنا فرصة لعرض نتائج بحوثنا لجمهور أوسع فحسب، بل إنها توفر أيضا ظروفاً لتجربة ابتكاراتنا”.

يُذكر أن مشاركة الجامعة بهذا المشروع خلال فعاليات معرض “جايتكس” تشكل جزءاً من مشاريع أخرى تشارك بها لإبراز آخر مستجدات وتطورات الذكاء الاصطناعي لديها – وتضم قائمة هذه المشاريع:

  • النموذج الكبير متعدد الوسائط ثنائي اللغة الخاص بالرعاية صحية
  • النموذج اللغوي-البصري للتحليل الزمني متعدد المستويات للصور بتقنية الاستشعار عن بُعد
  • منصة المقارنة بين تقنيات التأطير السياقي وأساليب الإقناع والترويج المستخدمة في المواد الإخبارية
  • النموذج التوليدي لإنشاء أَفَتَار ثلاثي الأبعاد من صورة واحدة
  • واجهة التفاعل بين الإنسان والروبوت الجديدة

من بيئة المختبر إلى العالم الحقيقي

مع استمرار النماذج الكبيرة متعددة الوسائط في التطور، فإنها تعيد تعريف ماهية التفاعل بين الإنسان والآلة، وتفتح الباب أمام كوكبة جديدة من التطبيقات والإمكانيات. ويعتقد د. شولاكال أن هذا النوع من النماذج سيكون له مجموعة واسعة من التطبيقات موازاة مع تطورها وتطور سرعة استجاباتها، في بيئات مثل مواقع العمل.

وعن إمكانية توظيف هذه النماذج في مواقع العمل يوضح د. شولاكال قائلاً: “في كثير من الأحيان لا نريد إرسال شخص إلى موقع معين، ويمكن بدلاً من ذلك إرسال روبوت للقيام ببعض الدوريات الروتينية والمراقبة، أو للتحقق من أي شيء غير اعتيادي”.

“ويمكنه أن يخبرك إذا ما كان هناك أي شيء غير عادي أو مختلف في الموقع. وبحكم أنه يستطيع فهم لغات متعددة، فهذا يعتبر ميزة مختلفة عن كاميرات المراقبة التي تقتصر على ما هو مرئي فقط. كما أن روبوت من هذا النوع إذا ما لاحظ أمورا غير طبيعية أو كانت لديه شكوك حولها، يمكنه أن يزود المستخدم بمعلومات عنها. كما يمكن استخدامها في المستقبل كروبوتات شرطية، يمكن إرسالها إلى موقع معين، والتجول فيه، ومن تمت إخبارك إذا كان هناك شيء مشبوه يحدث”.

“يمكن أيضا للمزارعين الاستفادة من قدرات هذا النموذج في الحقول؛ فعلى سبيل المثال، إذا كانت هناك بعض المحاصيل غير المجزية، فيمكن للنموذج – بغض النظر عمَّا إذا ما كان استخدامه عبر تطبيقنا للهواتف الذكية أو الكلب الروبوت – أن ينظر ويحلل النبتة أو أوراقها أو التربة التي توجد فيها، ويزود المزارع بالمعلومات اللازمة على تطبيقات محمولة”.

“وهكذا يتبين أن تطبيقات هذا النموذج تغطي مجالات مرتبطة بالسلامة، والأمن، والزراعة، والرعاية الصحية والعديد من التطبيقات المحتملة لمثل هذا النموذج التفاعلي المؤتمت لتحليل البيانات البصرية”.

ومهما كانت الطريقة التي قد يتم استخدامها بها في المستقبل، فإن جهود شولاكال وفريقه البحثي في هذا النوع من النماذج، تهدف إلى جعل التفاعل بين الإنسان والآلة أكثر واقعية من أي وقت مضى.

أخبار ذات صلة

thumbnail
Thursday, October 24, 2024

تكنولوجيا تعلم الآلة في خدمة تشخيص المصابين بالسرطان

علماء من جامعة محمد بن زايد للذكاء الاصطناعي يطورون طريقة جديدة ستساعد الأطباء على توقع مسار تطور.....

  1. السرطان ,
  2. الطب ,
  3. MICCAI ,
  4. الرعاية الصحية ,
  5. الرؤية الحاسوبية ,
  6. تعلّم الآلة ,
اقرأ المزيد
thumbnail
Tuesday, October 22, 2024

مقاربة جديدة لتكييف النماذج الأساسية لقراءة الصور الطبية وتجزيئها

تشاو تشين يوضح كيف أن إعادة تدريب نماذج أساسية باستخدام محولات مكنه من تحسين أدائها، وما قد.....

  1. التقسيم ,
  2. طب ,
  3. النماذج الأساسية ,
  4. مجموعات البيانات ,
  5. MICCAI ,
  6. المؤتمرات ,
  7. تحليل الصور ,
اقرأ المزيد