في عالم تتزايد فيه الحاجة إلى أنظمة ذكاء اصطناعي قادرة على فهم البيانات الواردة من مصادر متعددة في الوقت نفسه، تبرز تحديات جوهرية تتعلق بندرة البيانات المصنفة، وتغير البيئات التشغيلية، واحتمال فقدان بعض مصادر المعلومات أثناء الاستخدام الفعلي.
وقد كشف، في هذا السياق، باحثون في جامعة محمد بن زايد للذكاء الاصطناعي عن إطار عمل جديد يهدف إلى تمكين النماذج متعددة الوسائط من الحفاظ على كفاءتها وموثوقيتها حتى في الظروف التي تعاني فيها من نقص البيانات أو فقدان بعض المدخلات.
يذكر أن نتائج هذه الدراسة البحثية قد قدمت خلال مؤتمر “الرؤية الحاسوبية والتعرف على الأنماط” (CVPR 2026)، تحت إشراف الدكتور محمد حارث خان، حيث يتناول تحدياً لطالما تعامل معه مجتمع الذكاء الاصطناعي بوصفه مجموعة من المشكلات المنفصلة، بدلاً من النظر إليه كقضية مترابطة تتطلب حلاً موحداً.
لفهم أهمية هذا الإنجاز، يمكن تصور كاميرا منزلية ترصد أحد الوالدين أثناء اللعب مع أطفاله، بينما يلتقط الميكروفون الأصوات المصاحبة. في الظروف الطبيعية، تتفق الإشارات المرئية والصوتية على تفسير المشهد، ما يمنح النموذج متعدد الوسائط ثقة أكبر في استنتاجاته.
غير أن الأمر يصبح أكثر تعقيداً عندما يُطلب من النموذج ذاته توظيف آلياته في بيئة مختلفة كلياً، حيث تتغير ظروف الإضاءة أو تتراجع جودة الصوت أو تختلف طبيعة المشهد عن البيانات التي سبق تدريبه عليها.
ويشير الباحثون إلى أن هذه الحالة تجمع بين ثلاثة تحديات رئيسة:
ورغم أن كل مشكلة من هذه المشكلات نالت اهتماماً بحثياً واسعاً، فإن معالجتها مجتمعة ما تزال محدودة. وقد أظهرت النتائج أن أفضل النماذج الحالية تعاني من قصور واضح؛ فبعضها يفشل عند غياب البيانات غير المصنفة، وأخرى تتعثر في البيئات الجديدة، بينما تعجز النماذج أحادية الوسيط عن التعامل مع التضارب بين الصوت والصورة.
ولمعالجة هذه الإشكالية، اقترح فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي مقاربة جديدة أطلق عليها اسم “التعميم متعدد الوسائط عبر المجالات في بيئة شبه خاضعة للإشراف” (SSMDG). وتنطلق الفكرة من ملاحظة أن مصادر البيانات المختلفة تتفق وتتطابق في معظم الحالات، ما يتيح استثمار هذا التوافق لتعويض نقص البيانات المصنفة، بينما يتمثل التحدي الأساسي في التعامل مع الحالات التي تتعارض فيها هذه المصادر.
يعتمد الإطار المقترح على نظام “موثوقية متدرج” يتكون من أربعة مستويات مترابطة – على النحو التالي:
وتتجلى أهمية هذا الجانب في البيئات الواقعية؛ إذ يتيح للنظام تقدير البيانات المفقودة والاستفادة منها بدلاً من فقدان المعرفة المكتسبة. وقد حققت هذه المقاربة تفوقاً بنحو 6% على الأساليب التقليدية عند غياب الفيديو، وهو فارق قد يكون حاسماً في عمليات النظام وقابليته للاستخدام.
أظهرت التجارب العملية نتائج واعدة على عدد من المعايير المرجعية؛ ففي أحد اختبارات التعرف على الأنشطة داخل المطابخ، والذي يعتمد على خمس عينات مصنفة لكل فئة، حقق النظام دقة قاربت 40% مقارنة بنحو 37% لأقوى النماذج المرجعية المنافسة.
كما سجل النظام أداءً أكثر تميزاً في معيار التعميم الأسلوبي المعروف باسم HAC، الذي يختبر قدرة النماذج على التعرف إلى الأفعال نفسها عبر أنواع مختلفة من المحتوى، مثل مقاطع التي يوجد فيها بشر وحيوانات ورسوم متحركة.
وتطرح الدراسة أيضاً رؤية مختلفة لكيفية التعامل مع البيانات متعددة الوسائط؛ فالاتجاه السائد في هذا المجال يقوم على دمج جميع مصادر البيانات داخل نموذج واحد كبير، مع ترك مهمة تحديد أهمية كل وسيط للشبكة العصبية نفسها.
لكن الباحثين يرون أن القيمة الحقيقية للوسائط المتعددة لا تكمن فقط في توافقها، بل أيضاً في اختلافها أحياناً. ومن هذا المنطلق، فإن النظام القادر على الاستفادة من حالات الاتفاق، والتعامل بذكاء مع حالات التعارض، والاحتفاظ بفهم مستقل لطبيعة كل وسيط، يمتلك مستوى أعلى من الفهم مقارنة بالاعتماد على الدمج التقليدي وحده.
حتى الآن، اقتصرت الاختبارات على البيانات المرئية والصوتية، مع إضافة تدفق الحركة البصرية في إحدى التجارب وما يزال من غير الواضح ما إذا كانت المنهجية نفسها استخدامها بكفاءة وتوسيع نطاقها لتشمل وسائط أخرى مثل النصوص أو بيانات العمق أو التصوير الحراري وغيرها من مصادر البيانات التي تتجه الأنظمة الحديثة إلى دمجها بصورة متزايدة.
ورغم أن التحسينات المسجلة مقارنة بالأساليب المرجعية جاءت متسقة عبر مختلف الاختبارات، فإنها لا تزال بحاجة إلى مزيد من الدراسات لتأكيد قدرتها على التوسع في تطبيقات أكثر تعقيداً.
ومع ذلك، يقدم إطار SSMDG خطوة مهمة نحو بناء أنظمة ذكاء اصطناعي أكثر قدرة على التكيف مع الواقع، من خلال تحقيق توازن دقيق بين الاستفادة من توافق الوسائط المختلفة واستثمار المعلومات الكامنة في حالات الاختلاف بينها. ويأمل الباحثون أن تسهم صياغتهم الجديدة للمشكلة، إلى جانب المعايير والأدوات التي طوروها، في تحفيز موجة جديدة من الأبحاث الرامية إلى تطوير نماذج متعددة الوسائط أكثر مرونة وموثوقية في البيئات الواقعية التي تتسم بندرة البيانات وعدم اليقين.
نجح فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي في تطوير نهج مبتكر لفهم مقاطع الفيديو،.....
فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي ينجح في تطوير نظام لتوليد العلامات المائية، قد.....
باحثو من جامعة محمد بن زايد للذكاء الاصطناعي يطورون نهجاً جديداً يمكّن أنظمة الذكاء الاصطناعي من تفسير.....