تعزيز موثوقية النماذج متعددة الوسائط | SSMDG MBZUAI

باحثون في جامعة محمد بن زايد للذكاء الاصطناعي يطورون إطاراً جديداً يعزز موثوقية النماذج متعددة الوسائط

الجمعة، 12 يونيو 2026

في عالم تتزايد فيه الحاجة إلى أنظمة ذكاء اصطناعي قادرة على فهم البيانات الواردة من مصادر متعددة في الوقت نفسه، تبرز تحديات جوهرية تتعلق بندرة البيانات المصنفة، وتغير البيئات التشغيلية، واحتمال فقدان بعض مصادر المعلومات أثناء الاستخدام الفعلي.

وقد كشف، في هذا السياق، باحثون في جامعة محمد بن زايد للذكاء الاصطناعي عن إطار عمل جديد يهدف إلى تمكين النماذج متعددة الوسائط من الحفاظ على كفاءتها وموثوقيتها حتى في الظروف التي تعاني فيها من نقص البيانات أو فقدان بعض المدخلات.

يذكر أن نتائج هذه الدراسة البحثية قد قدمت خلال مؤتمر “الرؤية الحاسوبية والتعرف على الأنماط” (CVPR 2026)، تحت إشراف الدكتور محمد حارث خان، حيث يتناول تحدياً لطالما تعامل معه مجتمع الذكاء الاصطناعي بوصفه مجموعة من المشكلات المنفصلة، بدلاً من النظر إليه كقضية مترابطة تتطلب حلاً موحداً.

ثلاثة تحديات

لفهم أهمية هذا الإنجاز، يمكن تصور كاميرا منزلية ترصد أحد الوالدين أثناء اللعب مع أطفاله، بينما يلتقط الميكروفون الأصوات المصاحبة. في الظروف الطبيعية، تتفق الإشارات المرئية والصوتية على تفسير المشهد، ما يمنح النموذج متعدد الوسائط ثقة أكبر في استنتاجاته.

غير أن الأمر يصبح أكثر تعقيداً عندما يُطلب من النموذج ذاته توظيف آلياته في بيئة مختلفة كلياً، حيث تتغير ظروف الإضاءة أو تتراجع جودة الصوت أو تختلف طبيعة المشهد عن البيانات التي سبق تدريبه عليها.

ويشير الباحثون إلى أن هذه الحالة تجمع بين ثلاثة تحديات رئيسة:

 

  • أولها يتمثل في ما يعرف بـ “تحول المجال أو تغير البيئة” (Domain Shift)، حيث تميل النماذج المسبقة التدريب على بيانات من بيئة معينة إلى التراجع في الأداء عند التعامل مع بيئات جديدة تختلف في الإضاءة أو زوايا التصوير أو طبيعة المشهد.
  • أما التحدي الثاني فيتعلق بندرة البيانات المصنفة؛ فتصنيف البيانات متعددة الوسائط عملية مكلفة ومعقدة، إذ يتطلب وسم أو توصيف كل عينة عبر أكثر من مصدر للبيانات – مثل الصوت والفيديو معاً – ما يجعل غالبية مجموعات البيانات المتاحة غنية بالبيانات الخام لكنها محدودة من حيث البيانات المصنفة.
  • ويتمثل التحدي الثالث في التعلم متعدد الوسائط نفسه، حيث تفقد الأنظمة الواقعية أحياناً إحدى مصادر المعلومات أثناء التشغيل، كتعطل الصوت أو انقطاع الفيديو، ما يضع النموذج أمام معلومات ناقصة قد تؤثر في دقة قراراته.

ورغم أن كل مشكلة من هذه المشكلات نالت اهتماماً بحثياً واسعاً، فإن معالجتها مجتمعة ما تزال محدودة. وقد أظهرت النتائج أن أفضل النماذج الحالية تعاني من قصور واضح؛ فبعضها يفشل عند غياب البيانات غير المصنفة، وأخرى تتعثر في البيئات الجديدة، بينما تعجز النماذج أحادية الوسيط عن التعامل مع التضارب بين الصوت والصورة.

ولمعالجة هذه الإشكالية، اقترح فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي مقاربة جديدة أطلق عليها اسم التعميم متعدد الوسائط عبر المجالات في بيئة شبه خاضعة للإشراف” (SSMDG). وتنطلق الفكرة من ملاحظة أن مصادر البيانات المختلفة تتفق وتتطابق في معظم الحالات، ما يتيح استثمار هذا التوافق لتعويض نقص البيانات المصنفة، بينما يتمثل التحدي الأساسي في التعامل مع الحالات التي تتعارض فيها هذه المصادر.

مقاربة الجديدة

يعتمد الإطار المقترح على نظام “موثوقية متدرج” يتكون من أربعة مستويات مترابطة – على النحو التالي:

 

  • المستوى الأول: في حال أظهر النموذج متعدد الوسائط درجةً مرتفعة من الثقة في تنبؤه، وتوافق هذا التنبؤ مع مخرجات إحدى المصادر المزوِّدة للمعلومة بدرجة ثقة مماثلة على الأقل، فإن النظام يتعامل مع النتيجة باعتبارها تصنيفاً شبه مؤكد يمكن توظيفه في التدريب الذاتي للنموذج، وفقاً للمبادئ المتبعة في أنظمة التعلم شبه الخاضع للإشراف (Semi-Supervised Learning).
  • المستوى الثاني: أما عند غياب هذا التوافق، فتبرز أبرز نقاط الابتكار في المنهجية الجديدة. فبدلاً من استبعاد العينات التي تتضمن تعارضاً بين الوسائط المختلفة، يحتفظ بها النظام ويعالجها باستخدام دالة خسارة أكثر مرونة وقدرة على تحمل الضوضاء. ويستند هذا التوجه إلى فرضية أن الإشارات غير المؤكدة ما تزال تحمل قدراً من المعلومات المفيدة، ويمكن لآليات تعلم قوية استخلاص هذه المعلومات دون الوقوع في فخ الأخطاء المصاحبة لها.
  • المستوى الثاني: أما عند غياب هذا التوافق، تتجلى إحدى أبرز جوانب الابتكار في المنهجية المقترحة. فبدلاً من استبعاد العينات التي تظهر فيها تعارضات بين الوسائط المختلفة، يحتفظ النظام بها ويعالجها باستخدام دالة خسارة أكثر مرونة ومقاومة للتشويش. ويستند هذا التوجه إلى فرضية أن المعلومات غير المؤكدة ما تزال تنطوي على معلومات ذات قيمة. وبالاعتماد على آليات تعلم قوية، يمكن للنظام استخلاص هذه المعلومات دون الوقوع في فخ الأخطاء أو التحيزات المصاحبة لها.
  • المستوى الثالث: يتعلق هذا المستوى بكيفية بناء التمثيلات الداخلية للبيانات. إذ يحتفظ النظام بمتوسطات متحركة تمثل الشكل النموذجي لكل فئة داخل كل وسيط وكل مجال بيانات. وتعمل هذه النماذج المرجعية كمرساة معرفية توجه العينات الجديدة نحو التمثيل الأقرب للفئة المتوقعة، سواء داخل المجال نفسه أو عبر مجالات أخرى.
  • المستوى الرابع: يخص هذا المستوى ما يشبه “مترجمات خفيفة” قادرة على تحويل السمات المستخرجة من وسيط إلى آخر. وتؤدي هذه المترجمات وظيفتين أساسيتين؛ الأولى أثناء التدريب، حيث تضمن تقارب التمثيلات الخاصة بالفئة نفسها عبر الصوت والفيديو؛ والثانية أثناء الاختبار، إذ تستطيع إعادة بناء التمثيل المفقود عندما تتعطل إحدى مصادر المعلومات.

وتتجلى أهمية هذا الجانب في البيئات الواقعية؛ إذ يتيح للنظام تقدير البيانات المفقودة والاستفادة منها بدلاً من فقدان المعرفة المكتسبة. وقد حققت هذه المقاربة تفوقاً بنحو 6% على الأساليب التقليدية عند غياب الفيديو، وهو فارق قد يكون حاسماً في عمليات النظام وقابليته للاستخدام.

 التعارض مصدر للمعرفة

أظهرت التجارب العملية نتائج واعدة على عدد من المعايير المرجعية؛ ففي أحد اختبارات التعرف على الأنشطة داخل المطابخ، والذي يعتمد على خمس عينات مصنفة لكل فئة، حقق النظام دقة قاربت 40% مقارنة بنحو 37% لأقوى النماذج المرجعية المنافسة.

كما سجل النظام أداءً أكثر تميزاً في معيار التعميم الأسلوبي المعروف باسم HAC، الذي يختبر قدرة النماذج على التعرف إلى الأفعال نفسها عبر أنواع مختلفة من المحتوى، مثل مقاطع التي يوجد فيها بشر وحيوانات ورسوم متحركة.

وتطرح الدراسة أيضاً رؤية مختلفة لكيفية التعامل مع البيانات متعددة الوسائط؛ فالاتجاه السائد في هذا المجال يقوم على دمج جميع مصادر البيانات داخل نموذج واحد كبير، مع ترك مهمة تحديد أهمية كل وسيط للشبكة العصبية نفسها.

لكن الباحثين يرون أن القيمة الحقيقية للوسائط المتعددة لا تكمن فقط في توافقها، بل أيضاً في اختلافها أحياناً. ومن هذا المنطلق، فإن النظام القادر على الاستفادة من حالات الاتفاق، والتعامل بذكاء مع حالات التعارض، والاحتفاظ بفهم مستقل لطبيعة كل وسيط، يمتلك مستوى أعلى من الفهم مقارنة بالاعتماد على الدمج التقليدي وحده.

آفاق مستقبلية مفتوحة

حتى الآن، اقتصرت الاختبارات على البيانات المرئية والصوتية، مع إضافة تدفق الحركة البصرية في إحدى التجارب وما يزال من غير الواضح ما إذا كانت المنهجية نفسها استخدامها بكفاءة وتوسيع نطاقها لتشمل وسائط أخرى مثل النصوص أو بيانات العمق أو التصوير الحراري وغيرها من مصادر البيانات التي تتجه الأنظمة الحديثة إلى دمجها بصورة متزايدة.

ورغم أن التحسينات المسجلة مقارنة بالأساليب المرجعية جاءت متسقة عبر مختلف الاختبارات، فإنها لا تزال بحاجة إلى مزيد من الدراسات لتأكيد قدرتها على التوسع في تطبيقات أكثر تعقيداً.

ومع ذلك، يقدم إطار SSMDG خطوة مهمة نحو بناء أنظمة ذكاء اصطناعي أكثر قدرة على التكيف مع الواقع، من خلال تحقيق توازن دقيق بين الاستفادة من توافق الوسائط المختلفة واستثمار المعلومات الكامنة في حالات الاختلاف بينها. ويأمل الباحثون أن تسهم صياغتهم الجديدة للمشكلة، إلى جانب المعايير والأدوات التي طوروها، في تحفيز موجة جديدة من الأبحاث الرامية إلى تطوير نماذج متعددة الوسائط أكثر مرونة وموثوقية في البيئات الواقعية التي تتسم بندرة البيانات وعدم اليقين.

أخبار ذات صلة

thumbnail
الخميس، 04 يونيو 2026

نموذجان أفضل من واحد لفهم الفيديوهات

نجح فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي في تطوير نهج مبتكر لفهم مقاطع الفيديو،.....

  1. الفيديو ,
  2. النماذج متعددة الوسائط الكبيرة ,
  3. مؤتمر الرؤية الحاسوبية والتعرف على الأنماط ,
  4. CVPR ,
  5. البحوث ,
  6. المؤتمرات ,
اقرأ المزيد
thumbnail
الثلاثاء، 02 يونيو 2026

نهج جديد لتكييف نماذج الرؤية الحاسوبية مع الصور الطبية

باحثو من جامعة محمد بن زايد للذكاء الاصطناعي يطورون نهجاً جديداً يمكّن أنظمة الذكاء الاصطناعي من تفسير.....

  1. الرؤية الحاسوبية ,
  2. مؤتمر الرؤية الحاسوبية والتعرف على الأنماط ,
  3. التصوير الطبي ,
  4. CVPR ,
  5. الطب ,
  6. المؤتمرات ,
اقرأ المزيد