الصفحة الرئيسية / الأخبار / باحثون في جامعة محمد بن زايد للذكاء الاصطناعي يطورون إطاراً جديداً يعزز موثوقية النماذج متعددة الوسائط

باحثون في جامعة محمد بن زايد للذكاء الاصطناعي يطورون إطاراً جديداً يعزز موثوقية النماذج متعددة الوسائط

الجمعة، 12 يونيو 2026

في عالم تتزايد فيه الحاجة إلى أنظمة ذكاء اصطناعي قادرة على فهم البيانات الواردة من مصادر متعددة في الوقت نفسه، تبرز تحديات جوهرية تتعلق بندرة البيانات المصنفة، وتغير البيئات التشغيلية، واحتمال فقدان بعض مصادر المعلومات أثناء الاستخدام الفعلي.

وقد كشف، في هذا السياق، باحثون في جامعة محمد بن زايد للذكاء الاصطناعي عن إطار عمل جديد يهدف إلى تمكين النماذج متعددة الوسائط من الحفاظ على كفاءتها وموثوقيتها حتى في الظروف التي تعاني فيها من نقص البيانات أو فقدان بعض المدخلات.

يذكر أن نتائج هذه الدراسة البحثية قد قدمت خلال مؤتمر “الرؤية الحاسوبية والتعرف على الأنماط” (CVPR 2026)، تحت إشراف الدكتور محمد حارث خان، حيث يتناول تحدياً لطالما تعامل معه مجتمع الذكاء الاصطناعي بوصفه مجموعة من المشكلات المنفصلة، بدلاً من النظر إليه كقضية مترابطة تتطلب حلاً موحداً.

ثلاثة تحديات

لفهم أهمية هذا الإنجاز، يمكن تصور كاميرا منزلية ترصد أحد الوالدين أثناء اللعب مع أطفاله، بينما يلتقط الميكروفون الأصوات المصاحبة. في الظروف الطبيعية، تتفق الإشارات المرئية والصوتية على تفسير المشهد، ما يمنح النموذج متعدد الوسائط ثقة أكبر في استنتاجاته.

غير أن الأمر يصبح أكثر تعقيداً عندما يُطلب من النموذج ذاته توظيف آلياته في بيئة مختلفة كلياً، حيث تتغير ظروف الإضاءة أو تتراجع جودة الصوت أو تختلف طبيعة المشهد عن البيانات التي سبق تدريبه عليها.

ويشير الباحثون إلى أن هذه الحالة تجمع بين ثلاثة تحديات رئيسة:

أولها يتمثل في ما يعرف بـ “تحول المجال أو تغير البيئة” (Domain Shift)، حيث تميل النماذج التي خضعت لتدريب مسبق على بيانات من بيئة معينة إلى التراجع في الأداء عند التعامل مع بيئات جديدة تختلف في الإضاءة أو زوايا التصوير أو طبيعة المشهد.

أما التحدي الثاني فيتعلق بندرة البيانات المصنفة؛ فتصنيف البيانات متعددة الوسائط عملية مكلفة ومعقدة، إذ يتطلب وسم أو توصيف كل عينة عبر أكثر من مصدر للبيانات – مثل الصوت والفيديو معاً – ما يجعل غالبية مجموعات البيانات المتاحة غنية بالبيانات الخام لكنها محدودة من حيث البيانات المصنفة.

ويتمثل التحدي الثالث في التعلم متعدد الوسائط نفسه، حيث تفقد الأنظمة الواقعية أحياناً إحدى مصادر المعلومات أثناء التشغيل، كتعطل الصوت أو انقطاع الفيديو، ما يضع النموذج أمام معلومات ناقصة قد تؤثر في دقة قراراته.

ورغم أن كل مشكلة من هذه المشكلات نالت اهتماماً بحثياً واسعاً، فإن معالجتها مجتمعة ما تزال محدودة. وقد أظهرت النتائج أن أفضل النماذج الحالية تعاني من قصور واضح؛ فبعضها يفشل عند غياب البيانات غير المصنفة، وأخرى تتعثر في البيئات الجديدة، بينما تعجز النماذج أحادية الوسيط عن التعامل مع التضارب بين الصوت والصورة.

ولمعالجة هذه الإشكالية، اقترح فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي مقاربة جديدة أطلق عليها اسم “التعميم متعدد الوسائط عبر المجالات في بيئة شبه خاضعة للإشراف” (SSMDG). وتنطلق الفكرة من ملاحظة أن مصادر البيانات المختلفة تتفق وتتطابق في معظم الحالات، ما يتيح استثمار هذا التوافق لتعويض نقص البيانات المصنفة، بينما يتمثل التحدي الأساسي في التعامل مع الحالات التي تتعارض فيها هذه المصادر.

مقاربة جديدة

يعتمد الإطار المقترح على نظام “موثوقية متدرج” يتكون من أربعة مستويات مترابطة – على النحو التالي:

المستوى الأول: في حال أظهر النموذج متعدد الوسائط درجةً مرتفعة من الثقة في تنبؤه، وتوافق هذا التنبؤ مع مخرجات إحدى المصادر المزوِّدة للمعلومة بدرجة ثقة مماثلة على الأقل، فإن النظام يتعامل مع النتيجة باعتبارها “تصنيفاً شبه مؤكد“ يمكن توظيفه في التدريب الذاتي للنموذج، وفقاً للمبادئ المتبعة في أنظمة التعلم شبه الخاضع للإشراف (Semi-Supervised Learning).

المستوى الثاني: أما عند غياب هذا التوافق، تتجلى إحدى أبرز جوانب الابتكار في المنهجية المقترحة. فبدلاً من استبعاد العينات التي تظهر فيها تعارضات بين الوسائط المختلفة، يحتفظ النظام بها ويعالجها باستخدام دالة خسارة أكثر مرونة ومقاومة للتشويش. ويستند هذا التوجه إلى فرضية أن المعلومات غير المؤكدة ما تزال تنطوي على معلومات ذات قيمة. وبالاعتماد على آليات تعلم قوية، يمكن للنظام استخلاص هذه المعلومات دون الوقوع في فخ الأخطاء أو التحيزات المصاحبة لها.

المستوى الثالث: يتعلق هذا المستوى بكيفية بناء التمثيلات الداخلية للبيانات. إذ يحتفظ النظام بمتوسطات متحركة تمثل الشكل النموذجي لكل فئة داخل كل وسيط وكل مجال بيانات. وتعمل هذه النماذج المرجعية كمرساة معرفية توجه العينات الجديدة نحو التمثيل الأقرب للفئة المتوقعة، سواء داخل المجال نفسه أو عبر مجالات أخرى.

المستوى الرابع: يخص هذا المستوى ما يشبه “مترجمات خفيفة” قادرة على تحويل السمات المستخرجة من وسيط إلى آخر. وتؤدي هذه المترجمات وظيفتين أساسيتين؛ الأولى أثناء التدريب، حيث تضمن تقارب التمثيلات الخاصة بالفئة نفسها عبر الصوت والفيديو؛ والثانية أثناء الاختبار، إذ تستطيع إعادة بناء التمثيل المفقود عندما تتعطل إحدى مصادر المعلومات.

وتتجلى أهمية هذا الجانب في البيئات الواقعية؛ إذ يتيح للنظام تقدير البيانات المفقودة والاستفادة منها بدلاً من فقدان المعرفة المكتسبة. وقد حققت هذه المقاربة تفوقاً بنحو 6% على الأساليب التقليدية عند غياب الفيديو، وهو فارق قد يكون حاسماً في عمليات النظام وقابليته للاستخدام.

التعارض مصدر للمعرفة

أظهرت التجارب العملية نتائج واعدة على عدد من المعايير المرجعية؛ ففي أحد اختبارات التعرف على الأنشطة داخل المطابخ، والذي يعتمد على خمس عينات مصنفة لكل فئة، حقق النظام دقة قاربت 40% مقارنة بنحو 37% لأقوى النماذج المرجعية المنافسة.

كما سجل النظام أداءً أكثر تميزاً في معيار التعميم الأسلوبي المعروف باسم HAC، الذي يختبر قدرة النماذج على التعرف إلى الأفعال نفسها عبر أنواع مختلفة من المحتوى، مثل المقاطع التي تظهر فيها مشاهد لبشر وحيوانات ورسوم متحركة.

وتطرح الدراسة أيضاً رؤية مختلفة لكيفية التعامل مع البيانات متعددة الوسائط؛ فالاتجاه السائد في هذا المجال يقوم على دمج جميع مصادر البيانات داخل نموذج واحد كبير، مع ترك مهمة تحديد أهمية كل وسيط للشبكة العصبية نفسها.

لكن الباحثين يرون أن القيمة الحقيقية للوسائط المتعددة لا تكمن فقط في توافقها، بل أيضاً في اختلافها أحياناً. ومن هذا المنطلق، فإن النظام القادر على الاستفادة من حالات الاتفاق، والتعامل بذكاء مع حالات التعارض، والاحتفاظ بفهم مستقل لطبيعة كل وسيط، يمتلك مستوى أعلى من الفهم مقارنة بالاعتماد على الدمج التقليدي وحده.

آفاق مستقبلية مفتوحة

حتى الآن، اقتصرت الاختبارات على البيانات المرئية والصوتية، مع إضافة تدفق الحركة البصرية في إحدى التجارب وما يزال من غير الواضح ما إذا كان بالإمكان استخدام المنهجية نفسها بكفاءة وتوسيع نطاقها لتشمل وسائط أخرى مثل النصوص أو بيانات العمق أو التصوير الحراري وغيرها من مصادر البيانات التي تتجه الأنظمة الحديثة إلى دمجها بصورة متزايدة.

ورغم أن التحسينات المسجلة مقارنة بالأساليب المرجعية جاءت متسقة عبر مختلف الاختبارات، فإنها لا تزال بحاجة إلى مزيد من الدراسات لتأكيد قدرتها على التوسع في تطبيقات أكثر تعقيداً.

ومع ذلك، يقدم إطار SSMDG خطوة مهمة نحو بناء أنظمة ذكاء اصطناعي أكثر قدرة على التكيف مع الواقع، من خلال تحقيق توازن دقيق بين الاستفادة من توافق الوسائط المختلفة واستثمار المعلومات الكامنة في حالات الاختلاف بينها. ويأمل الباحثون أن تسهم صياغتهم الجديدة للمشكلة، إلى جانب المعايير والأدوات التي طوروها، في تحفيز موجة جديدة من الأبحاث الرامية إلى تطوير نماذج متعددة الوسائط أكثر مرونة وموثوقية في البيئات الواقعية التي تتسم بندرة البيانات وعدم اليقين.

أخبار ذات صلة

الاثنين، 06 يوليو 2026

تطوير ذكاء اصطناعي يفهم التحديات المناخية في الخليج

طور فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي إطاراً جديداً يحمل اسم "المساعد الذكي للمناخ.....

اقرأ المزيد

الخميس، 04 يونيو 2026

نموذجان أفضل من واحد لفهم الفيديوهات

نجح فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي في تطوير نهج مبتكر لفهم مقاطع الفيديو،.....

اقرأ المزيد

الأربعاء، 03 يونيو 2026

من "الوسم الثابت" إلى "التشفير المتغير": مقاربة جديدة لتوثيق الفيديوهات المولَّدة آلياً

فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي ينجح في تطوير نظام لتوليد العلامات المائية، قد.....

اقرأ المزيد

باحثون في جامعة محمد بن زايد للذكاء الاصطناعي يطورون إطاراً جديداً يعزز موثوقية النماذج متعددة الوسائط

ثلاثة تحديات

مقاربة جديدة

التعارض مصدر للمعرفة

آفاق مستقبلية مفتوحة

أخبار ذات صلة

تطوير ذكاء اصطناعي يفهم التحديات المناخية في الخليج

نموذجان أفضل من واحد لفهم الفيديوهات

من "الوسم الثابت" إلى "التشفير المتغير": مقاربة جديدة لتوثيق الفيديوهات المولَّدة آلياً

من نحن

الموارد

البرامج

التقويم

باحثون في جامعة محمد بن زايد للذكاء الاصطناعي يطورون إطاراً جديداً يعزز موثوقية النماذج متعددة الوسائط

ثلاثة تحديات

مقاربة جديدة

التعارض مصدر للمعرفة

آفاق مستقبلية مفتوحة

أخبار ذات صلة

تطوير ذكاء اصطناعي يفهم التحديات المناخية في الخليج

نموذجان أفضل من واحد لفهم الفيديوهات

من "الوسم الثابت" إلى "التشفير المتغير": مقاربة جديدة لتوثيق الفيديوهات المولَّدة آلياً

اشترك في "ذي نود"