فهم الزمان والمكان في الفيديو

Thursday, October 12, 2023

في مجالات الابتكار الجديدة والناشئة، يميل العلماء إلى العمل أولاً على المشاكل التي تبدو واضحة قبل الانتقال إلى المشاكل الأكثر تعقيداً، وينطبق الأمر عينه على مجال الرؤية الحاسوبية. فعندما أبصر هذا المجال النور منذ عقود، بدأ العلماء بكتابة برامج تُمكّن أجهزة الحاسوب من تصنيف الصور بناءً على ما يظهر فيها. وتمكّنت برامج تصنيف الصور مثلاً من تحديد إذا ما كانت الصورة تُمثّل وجه إنسان أو سيارة أو شجرة.

في السنوات الأخيرة، شرع العلماء الذين يعملون في مجال الرؤية الحاسوبية في تنفيذ مهام أكثر تعقيداً، مثل تجزئة الصور، وهي طريقة تستخدمها الآلة لتجميع مختلف مناطق الصورة ضمن فئاتٍ ذات معنى، ومثل تجزئة الأشياء، وهي عملية تعيين الحدود التي تفصل الأشياء الفردية عن خلفيتها. أما اليوم، فبدلاً من تطبيق مبادئ الرؤية الحاسوبية على الصور الثابتة فحسب، يتم تطبيقها أيضاً على الفيديو.

لكن حتى أحدث الابتكارات تعتمد على الرؤى السابقة، فيعمل حالياً فريقٌ من الباحثين في جامعة محمد بن زايد للذكاء الاصطناعي على تطوير طريقة جديدة لتحليل الفعل في مقاطع الفيديو، بالاستناد إلى الأعمال السابقة في معالجة الصور الثابتة. وقد تمت مؤخراً مشاركة الدراسة التي أجراها مساعد الأبحاث في جامعة محمد بن زايد للذكاء الاصطناعي سيد طلال وسيم، وذلك ضمن المؤتمر الدولي للرؤية الحاسوبية الذي عُقِد في وقتٍ سابقٍ من هذا الشهر في باريس.

من الشيء إلى الفعل

ليس من المستغرب أن تكون مهمة فهم الفيديو أكثر تعقيداً من مهمة فهم الصورة بالنسبة إلى الحاسوب. فتحتوي مقاطع الفيديو على بياناتٍ أكثر من بيانات الصور، مع ما يرتبط بها من المتطلبات المتعلقة بقوة المعالجة. ويُضاف إلى ذلك بُعد الوقت الذي يمرّ عند تَحَرُّك الصور ويعقّد التحليل.

إلا أن المهام الأساسية مثل تصنيف الصور تُطبَّق بنجاح على مقاطع الفيديو. وبحسب وسيم: “ما يثير الاهتمام ليس تصنيف مقطع الفيديو فحسب، بل أيضاً فهم ما يحدث في هذا المقطع مع مرور الوقت وفهم هذه المعلومات عبر مختلف الإطارات”. فيتطلب القيام بذلك التمتع بقدرةٍ تُعرَف باسم التجميع الزمني.

وأوضح وسيم أنه ثمة طرق قائمة لتسهيل التجميع الزمني في الفيديو، وهي تشمل الشبكات العصبية الترشيحية والمحوِّلات، وكلا الطريقتين ناجحتان لكنهما لا تخلوان من أوجه القصور.

فتجد الشبكات العصبية الترشيحية صعوبةً في معالجة الجانب الزمني من الفيديو. أما المحوِّلات، التي تم تطبيقها أولاً في مجال معالجة اللغات الطبيعية، فهي جيدة في التعامل مع كيفية ظهور الوقت في الفيديو لكن متطلباتها كبيرة من حيث القدرة الحاسوبية بسبب شدة تعقيدها.

وقال وسيم: “في حين أن الناس يعملون على النمذجة الزمنية منذ سنوات، أردنا أن نعرف إذا ما كان باستطاعتنا تنفيذها بفعالية عبر تجنب مشكلة التعقيد التربيعي”.

تحقيق الهدف تدريجياً

في البداية، يأخذ الفريق صوراً ثابتةً من مقاطع الفيديو تفصل بينها فترات زمنية قياسية، ويبني سلسلةً من الصور. ثم يستخدم تقنيةً صُممت للصور وتُسمى التعديل البؤري، ويطبّقها على الصور الثابتة المأخوذة من الفيديو. فيستخدم التعديل البؤري لتحليل المعلومات المكانية والزمانية بشكلٍ منفصلٍ وعلى مستويات مختلفة. وقال وسيم: “نحن نطبّق التعديل البؤري المكاني على الإطارات والتعديل البؤري الزماني على كل بكسل”.

أدت الطريقة التي اتبعها الفريق، والتي أطلق عليها اسم “الشبكات البؤرية للفيديو”، إلى نتائج مثيرة للاهتمام. فبما أن خصائص المكان والزمان صيغت بشكلٍ منفصلٍ، تشير طريقة “الشبكات البؤرية للفيديو” إلى الجانب الأكثر تعقيداً الذي يجب أن تحلله الآلة. وقال وسيم: “أظهرت بعض مقاطع الفيديو مشاكل مكانية صعبة، بينما كانت المشكلة الزمانية فيها سهلة. وقد تمكنت طريقة “الشبكات البؤرية للفيديو” من اكتشاف ذلك بناءً على الجانب الزماني، فجعلتنا نفهم المشكلة نفسها”.

أعرب وسيم عن اهتمامه بالتفكير في كيفية استخدام التقنيات للتطبيقات الجديدة، لكنه اعتبر أنه من المهم دائماً التفكير في كيفية تطبيق هذه التقنيات، فقال: “إذا نجحتْ إحدى التقنيات عند تطبيقها على الصور، وأردتَ أن تطبّقها بنجاح على مقاطع الفيديو، من المهم التفكير في أفضل طريقة لتحقيق ذلك، لأن مقاطع الفيديو تشمل بعداً إضافياً”.

شارك في تأليف هذه الورقة البحثية محمد عزير خطاك من جامعة محمد بن زايد للذكاء الاصطناعي، ومزمل نصير من جامعة محمد بن زايد للذكاء الاصطناعي، وسلمان خان من جامعة محمد بن زايد للذكاء الاصطناعي والجامعة الوطنية الأسترالية، ومبارك شاه من جامعة سنترال فلوريدا، وفهد  خان من جامعة محمد بن زايد للذكاء الاصطناعي وجامعة لينشوبينغ.

وأشار وسيم أيضاً إلى أن “النموذج يمكّن التصوير بطبيعته، فهو يُظهر لنا ما يركز عليه، ولا يحتاج إلى تقنية خارجية للتصوير من أجل استخراج التصويرات منه”.

أخبار ذات صلة

thumbnail
Thursday, October 24, 2024

تكنولوجيا تعلم الآلة في خدمة تشخيص المصابين بالسرطان

علماء من جامعة محمد بن زايد للذكاء الاصطناعي يطورون طريقة جديدة ستساعد الأطباء على توقع مسار تطور.....

  1. تعلّم الآلة ,
  2. الرؤية الحاسوبية ,
  3. الرعاية الصحية ,
  4. MICCAI ,
  5. الطب ,
  6. السرطان ,
اقرأ المزيد
thumbnail
Tuesday, October 22, 2024

مقاربة جديدة لتكييف النماذج الأساسية لقراءة الصور الطبية وتجزيئها

تشاو تشين يوضح كيف أن إعادة تدريب نماذج أساسية باستخدام محولات مكنه من تحسين أدائها، وما قد.....

  1. التقسيم ,
  2. طب ,
  3. النماذج الأساسية ,
  4. مجموعات البيانات ,
  5. MICCAI ,
  6. المؤتمرات ,
  7. تحليل الصور ,
اقرأ المزيد