صور قديمة لتوقع المستقبل

Monday, October 30, 2023

تشكل الفيديوهات مصدراً غنياً للمعلومات بالنسبة لعدة قطاعات، وتشمل بعض الاستخدامات الشائعة للفيديو كاميرات الأمن والسير. وفي مجال علوم الحياة، ترمي بعض تطبيقات الفيديو إلى تحليل التجارب في المختبرات، وفي قطاع الرعاية الصحية إلى مراقبة صحة المرضى وسلامتهم. ولكن على الرغم من المعلومات القيمة التي تقدمها الفيديوهات، تستغرق عملية تحليلها الكثير من الوقت للخبراء البشر.

ولكن تساهم طريقة مُستخدمة في الذكاء الاصطناعي، تُدعى الإجابة عن الأسئلة حول الفيديو، في تسهيل استخدام الفيديو للأفراد وهي وسيلة تجمع بين الرؤى من مجالَي الرؤية الحاسوبية ومعالجة اللغات الطبيعية. تهدف الإجابة عن الأسئلة حول الفيديو، كما يشير الاسم، إلى توليد إجابات عن الأسئلة التي يطرحها الأفراد حول مضمون الفيديو.

على سبيل المثال، يرغب أخصائي في أمراض القلب بالبحث في أرشيف الفيديوهات التي تحتوي على فحوصات القلب لأحد المرضى، وذلك بهدف العثور عن أمثلة عن خلل معيّن. وقد يكون أحد المساعدين قد نظّم أرشيف هذا الطبيب بشكلٍ دقيق على مدى سنوات، ويستطيع أن يعثر على ما يريده بسهولة. إلا أن هذا السيناريو غير محتمل. فحتى لو كان الأرشيف منظماً، قد لا يشمل نظام الفهرسة المُستخدم المصطلح الذي يبحث عنه الطبيب. وفي غياب أي وسيلة تخوّل البحث بسرعة في محتوى الفيديوهات، التي قد تستغرق مشاهدتها ساعات أو حتى أيام، لن يستطيع الطبيب أن يراجع كل فيديو على حدة.

هذا مثال بسيط عن مفهوم الإجابة عن الأسئلة حول الفيديو وقدرتها على التعرّف على محتوى الفيديوهات. في جامعة محمد بن زايد للذكاء الاصطناعي، يعمل العلماء على استكشاف مختلف التطبيقات التي تدمج الاستدلال الحاسوبي من أجل تحديد الأسباب الكامنة وراء الأحداث التي تظهر على الفيديو.

الانتقال من الصورة إلى الفيديو

بحسب غوانغي تشن، الباحث الزميل في بحوث ما بعد الدكتوراه في جامعة محمد بن زايد للذكاء الاصطناعي، تتسم المقاربات المُستخدمة حالياً لتدريب تطبيقات الإجابة عن الأسئلة حول الفيديو بارتفاع تكلفتها وهي تتطلب قدرة حاسوبية هائلة. اقترح تشن وزملاؤه من جامعة محمد بن زايد للذكاء الاصطناعي وغيرها من الجامعات تطبيق المعلومات المُستفادة من تحليل الصور الثابتة على مجال الفيديو، واستخدام قدر أقل من الموارد في الوقت نفسه، ما قد يزيد من كفاءة الإجابة عن الأسئلة حول الفيديو.

ويقول تشن: “أردنا من خلال هذا المشروع أن نستخدم نماذج سبق أن تم تدريبها على بيانات الصور، وأن نستخدمها كي تفهم المفاهيم التي يتضمنها الفيديو.”

تم تقديم البحث في المؤتمر الدولي للرؤية الحاسوبية الذي عُقِد بين 2 و6 أكتوبر في باريس. وساهم في تأليف المقالة البحثية كون زانغ، أستاذ مشارك في قسم تعلم الآلة ومدير مركز الذكاء الاصطناعي التكاملي في جامعة محمد بن زايد للذكاء الاصطناعي، وشياو ليو من جامعة آيندهوفن للتكنولوجيا، وغوانغرون وانغ وفيليب هـ. س. تور من جامعة أكسفورد، وشياو-بينغ زانغ من جامعة تورنتو متروبوليتان ومدرسة شنجن الدولية للدراسات العليا في جامعة تسينغهوا، ويانسونغ تانغ من مدرسة شنجن الدولية للدراسات العليا في جامعة تسينغهوا.

لجأ الباحثون إلى تقنيات تم تطويرها أصلاً لفهم الصور، ووجدوا أن تطبيقها على الفيديو فعالٌ لكنه يطرح مشكلة أخرى، لأن الصور هي عبارة عن لقطة للحظة محددة في الزمن بينما تمتلك الفيديوهات بعداً زمنياً. وكي تكون الإجابة عن الأسئلة حول الفيديو فعالة، يجب أن تطابق معنى اللغة مع معنى الصورة المتحركة ضمن البُعد الزمني. غير أن أدوات التدريب المُصممة للصور الثابتة لا تمتلك القدرة على أخذ الطبيعة الزمنية والديناميكية للفيديو في الاعتبار، وهو ما يوصف بـ “ثغرة المجال”.

ولحل هذه المشكلة، طور تشن وزملاؤه ما أطلقوا عليه اسم الموائم الزمني (أو Tem-adapter)، وهو برنامج يفسر العلاقة بين اللغة والصورة ويتعلم كيف تتغير هذه العلاقة مع مرور الوقت. يستخدم الموائم الزمني تقنية الانحدار الذاتي الذي توجهه اللغة، وتساعده هذه التقنية على توقع ما سيحصل في اللحظة المقبلة. تجدر الإشارة إلى أن مفهوم الانحدار الذاتي يُستخدم في النماذج اللغوية الكبيرة مثل “شات جي بي تي”. ويحلّل النموذج، من خلال الانحدار الذاتي، سلسلة من الكلمات ويقوم بالاستناد إلى هذه السلسلة بتوقع الكلمة التالية المرجحة. ويكرر هذه العملية للكلمة الجديدة التي تُضاف إلى السلسلة ليتوقع الكلمة التالية الأكثر ترجيحاً. يستخدم الموائم الزمني مفهوماً مماثلاً.

هدف تشن وفريقه إلى نقل هذا المفهوم إلى المجال المرئي، ليمكنوا الآلة من توقع الحالة المستقبلية للفيديو استناداً إلى الأحداث السابقة فيه.

واستخدم الباحثون الموائم الزمني لتحليل قواعد بيانات حول حركة السير. وسعوا إلى أن يكتشفوا ما إذا كانت مقاربتهم قادرة على تفسير كيفية تغير فيديوهات حركة السير مع مرور الوقت، وما إذا كان الموائم الزمني يقدم إجابات صحيحة عند السؤال عن سبب وقوع الحوادث على الشاشة. سجلت مقاربة هؤلاء العلماء فعالية عالية مقارنة مع المقاييس المعيارية، حتى بعد خفض تكاليف التدريب إلى حد كبير. كما تبيّن أنها الأكثر دقة من بين جميع النماذج المُستخدمة لتحديد أسباب الحوادث.

ويقول تشن: “تعلمنا أمرين من خلال هذه الدراسة. أولاً، يمكننا أن نستخدم نموذجاً مخصصاً للصور من أجل إنجاز مهام قائمة على الفيديو، حتى مع اعتبار الثغرة الزمنية. ثانياً، تستطيع نماذج الصور أن تمكّن التمثيل والاستدلال في الفيديو.”

وتطلعاً نحو مستقبل هذه البحوث، أفاد تشن: “وجدنا أن قدرات الفهم والتنبؤ هي فعالة في هذه المقاربة، لكن علينا أن نكتسب فهماً أفضل لجانب الاستدلال ولماذا يتم التوصل إلى هذه التفسيرات.”

أخبار ذات صلة

thumbnail
Tuesday, November 26, 2024

النماذج اللغوية الكبيرة وفهم انفعالات الإنسان وعواطفه

فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي وجامعة موناش يبحث في مدى قدرة النماذج اللغوية.....

  1. التعاطف ,
  2. انفعالات الإنسان ,
  3. معالجة اللغة الطبيعية ,
  4. EMNLP ,
  5. النماذج اللغوية الكبيرة ,
  6. البحوث ,
اقرأ المزيد