فهم أدق للبيانات متعددة الأبعاد MBZUAI

باحثون من “محمد بن زايد للذكاء الاصطناعي” يطوّرون نموذجاً يساعد على فهم أدق للبيانات متعددة الأبعاد

الجمعة، 24 أبريل 2026

في عالم الإحصاء وتحليل البيانات، تبدو عملية ترتيب القيم أمراً بديهياً عندما يتعلق الأمر بمتغير واحد فقط، مثل العمر أو الدخل؛ فمن السهل القول إن 10% من الأشخاص تقل أعمارهم عن 20 عاماً أو إن نصفهم أصغر من 38 عاماً. وتُعرف هذه المؤشرات باسم “الكانتيلات” [quantiles]، وهي من أكثر الأدوات استخداماً لفهم توزيع البيانات.

لكن هذه البساطة تتلاشى سريعاً عند التعامل مع بيانات متعددة الأبعاد، حيث تتداخل متغيرات مثل العمر والدخل والحالة الصحية والموقع الجغرافي في الوقت نفسه. ففي هذه الحالة، لا يكون من الممكن ترتيب البيانات وفق تسلسل واضح أو طبيعي – فكيف يمكن، على سبيل المثال، المقارنة بين شخص أكبر سناً لكنه يتقاضى دخلاً أقل من شخص أصغر عمراً؟ هنا تحديداً تبدأ التحديات الحقيقية التي تواجه علوم البيانات الحديثة.

وفي محاولة لمعالجة هذه الإشكالية، طوّر فريق بحثي في جامعة محمد بن زايد للذكاء الاصطناعي مقاربة جديدة تعتمد على الشبكات العصبية لفهم “الكانتيلات” داخل الفضاءات عالية الأبعاد، بما يمهّد الطريق أمام تطوير نماذج أكثر دقة وقدرة على التعامل مع البيانات المعقّدة، ويفتح الباب أمام تطبيقات متقدمة في مجالات التنبؤ والتحليل الإحصائي.

ويشارك فلاديمير كوندراتييف، طالب الدكتوراه في قسم تعلم الآلة بالجامعة، بالتعاون مع عدد من الباحثين في إعداد دراسة بحثية تقترح حلاً عملياً لهذه المعضلة، عبر توظيف إطار رياضي يُعرف باسم “النقل الأمثل” [optimal transport] لجعل “الكانتيلات” متعددة المتغيرات قابلة للحوسبة باستخدام الشبكات العصبية. كما عمل الفريق البحثي، إلى جانب هذا، على دمج هذا النهج مع تقنية “التنبؤ التوافقي”* [conformal prediction]، بهدف توفير معايير إحصائية أكثر موثوقية ضمن البيئات متعددة الأبعاد.

ومن المقرر عرض نتائج هذه الدراسة البحثية خلال المؤتمر الدولي الرابع عشر لتمثيلات التعلم (ICLR) في مدينة ريو دي جانيرو، بمشاركة الباحثين ألكسندر فيشكوف، ونيكيتا كوتليفسكي، ومحمود حجازي، وريمي فلاماري، وماكسيم بانوف، وإريك مولين.

نحو هندسة أدق “للكانتيلات”

تقوم الدراسة البحثية التي أعدها كوندراتييف مع فريقه من الباحثين على فكرة محورية مفادها أن “الكانتيلات” متعددة المتغيرات يمكن تحديدها عبر ما يعرف في الرياضيات بـ “النقل الأمثل”، حيث يتعامل هذا الإطار مع دالة الكوانتايل باعتبارها خريطة تربط بين توزيع مرجعي والبيانات الفعلية.

وتكمن أهمية هذه المقاربة في أنها توفر طريقة ذات معنى هندسي لترتيب نقاط البيانات داخل الفضاءات عالية الأبعاد، بدءاً من القيم “النمطية” وصولًا إلى القيم “غير النمطية”، بطريقة تحاكي مفهوم الترتيب التقليدي المستخدم في البيانات أحادية البعد.

ورغم أن الأسس النظرية لمفهوم “النقل الأمثل” الرياضي طُوّرت فيما سبق على يد باحثين آخرين، إلا أن الانتقال به من الحيز النظري إلى نطاق الآلية الحوسبية العملية القادرة على التعامل مع البيانات الحقيقية قد ظل يطرح تحدياً مفتوحاً – وعن هذا التحدي يقول كوندراتييف أن “نمذجة ’الكانتيلات‘ متعددة الأبعاد تُعد مهمة بالغة التعقيد من الناحية الرياضية، لكنها في المقابل ذات أهمية بالغة في تطبيقات متنوعة تشمل الأسواق المالية، ونمذجة الطلب، والإحصاء عموماً”.

إطار قادر على التعامل مع عشرات الأبعاد

في الدراسة، يطرح الباحثون ما أطلقوا عليه اسم “منظومة النقل العصبي الأمثل”، وهي منظومة تعتمد على شبكات عصبية محدبة الإدخال [input-convex neural networks] لتقدير خرائط “الكانتيلات” المتجهة والرتب متعددة الأبعاد، مع دمجها بأساليب التنبؤ التوافقي.

ولتحسين كفاءة التدريب، استخدم الفريق تقنية تُعرف باسم “التحسين المطفأ” [amortized optimization]، ما أتاح للنظام نطاقا أوسع مكنه من التعامل مع عشرات الأبعاد المختلفة، مع الحفاظ على الضمانات النظرية التي تمنح “الكانتيلات” قيمتها الإحصائية الأصلية.

ويشير كوندراتييف، في السياق، إلى أن الفريق البحثي قد نجح – استناداً إلى أعمال نظرية سابقة – في تطوير منهج عددي يوظف الشبكات العصبية لتحقيق النقل الأمثل، بما يسمح بإنشاء “دالة كوانتيلية” [quantile function] شاملة للفضاءات عالية الأبعاد.

اختبارات معقّدة ونتائج واعدة

ولاختبار قدرة “منظومة النقل العصبي الأمثل” الجديدة على فهم البنية الهندسية للتوزيعات المعقّدة، أجرى الباحثون سلسلة من الاختبارات على بيانات صُممت خصيصاً لاختبارها في ظروف صعبة ومتغيرة.

شملت تجارب الاختبارات مجموعة بيانات تُعرف باسم “banana”، تتميز بتوزيع يأخذ شكل “قطع مكافئ متغير”، إضافة إلى مجموعة بيانات “star” التي تتخذ شكلاً ثلاثي الرؤوس يدور مع تغيّر المتغيرات الكامنة، فضلاً عن مجموعة بيانات “glasses” التي تضم مجموعتان من البيانات تتحركان بشكل منفصل.

وتتميز التوزيعات المذكورة بأن شكلها يتغير بحسب محددات السياق، وهو ما يجعل النماذج التقليدية عاجزة – غالباً – عن تمثيلها بدقة.

يشار إلى أنه عندما تمت مقارنة أداء المنظومة الجديدة باستخدام مقياس “مسافة واسرشتاين” [Wasserstein distance]، وهو معيار يقيس مدى اختلاف توزيعين إحصائيين – أظهرت المنظومة الجديدة نتائج أداء مساوية أو متفوقة على النظم المنافسة، بما في ذلك طرق انحدار الكوانتايل المتجه التي لا تعتمد على الشبكات العصبية.

كما اختبر الفريق المنظومة على توزيع يُعرف باسم “قمع نيل” [Neal’s Funnel]، وهو توزيع تزداد صعوبته مع ارتفاع عدد الأبعاد، حيث حافظت المنظومة الجديدة على كفاءتها حتى مع زيادة الأبعاد من اثنين إلى 16 بعداً.

نحو تنبؤات أكثر دقة

يشكل “مقياس التوافق” عنصراً أساسياً بالنسبة “للتنبؤ التوافقي”، إذ يُستخدم لتحديد مدى تطرف نقطة بيانات مقارنة بالتوزيع الكامل للبيانات؛ غير أن تحديد هذا المقياس ضمن سياقات البيانات متعددة الأبعاد ظَلَّ يطرح تحدياً.

وتعالج المنظومة الجديد التي طورها فريق الجامعة البحثي هذه المشكلة عبر “رتب الكوانتايل” متعددة المتغيرات، التي توفّر مقياساً يمكن “لنظم التنبؤ التوافقي” الاعتماد عليه لبناء مجموعات تنبؤية أكثر دقة.

ورغم أن تطبيقات التنبؤ التوافقي في سياق البيئات متعددة الأبعاد ليست جديدة بالكامل، فإن الملاحظ هو أن الأساليب التقليدية غالباً ما تنتج نطاقات تنبؤ أوسع من اللازم مقارنة بالمنظومة الجديدة التي نجحت في إنتاج نطاقات تنبؤ أكثر إحكاماً وكفاءة بفضل الاعتماد على رتب الكانتيلات متعددة الأبعاد.

من تشخيص السرطان إلى النماذج اللغوية الكبيرة

ويرى الباحثون أن التطبيقات المحتملة لهذه المقاربة ستغطي مجالات متعددة، من أبرزها تحليل الصور الطبية؛ فبعض تقنيات تقسيم الصور الحالية تعتمد على أساليب أحادية البعد تتعامل مع كل بكسل على حدة، بينما يمكن للنهج متعدد الأبعاد إنتاج “قناع تنبؤي” [Prediction Mask] يضمن معالجة نسبة محددة من المنطقة السرطانية بدقة أكبر. ويؤكد كوندراتييف أن هذه الفكرة ما تزال بحاجة إلى اختبارات عملية لإثبات فعاليتها، لكنها تمثل مساراً واعداً للتطوير المستقبلي.

كما يلفت كوندراتييف إلى إمكانية توظيف الفكرة مستقبلاً في تطوير النماذج اللغوية الكبيرة؛ فعند توليد النصوص، تعتمد هذه النماذج على اختيار الكلمات التالية من توزيعات احتمالية عالية الأبعاد. ويمكن لدوال الكوانتايل متعددة المتغيرات، من حيث المبدأ، فهم هذه التوزيعات وأخذ عينات منها بصورة أكثر كفاءة.

ويشير كوندراتييف إلى أن تحقيق ذلك عملياً يتطلب توسيعا لنطاق هذه المنظومة الجديدة لتعمل على عدد شبه لا نهائي من الأبعاد، ويشكل هذا المسار أحد أكثر الاتجاهات البحثية إثارة للاهتمام بالنسبة له في المرحلة المقبلة.

*التنبؤ التوافقي: هو إطار عمل لتعلم الآلة يوفر مقياساً لمصداقية التنبؤات التي يقدمها نموذج تنبؤي

أخبار ذات صلة

thumbnail
الاثنين، 18 مايو 2026

إنجاز علمي يعيد تعريف فهم العلاقات السببية ويكشف ما تخفيه البيانات

كشف العلاقة السببية: دراسة حديثة تقدم خوارزمية متطورة لتحليل المتغيرات الكامنة وفهم العلاقات السببية المعقدة دون الاعتماد.....

  1. كشف العلاقة السببية ,
  2. ICLR ,
  3. البحوث ,
  4. المؤتمرات ,
  5. تعلّم الآلة ,
اقرأ المزيد
thumbnail
الاثنين، 04 مايو 2026

أداة جديدة لتحليل البيانات الطبية المشتركة لأكثر من مستشفى مع مراعاة الخصوصية

يُمكّن إطار جديد طوّره باحثون في جامعة محمد بن زايد للذكاء الاصطناعي المؤسسات من اكتشاف الأنماط المشتركة.....

  1. مجموعة البيانات ,
  2. إطار ,
  3. المؤتمر ,
  4. framework ,
  5. AISTATS ,
  6. البحث العلمي ,
  7. متعدد الوسائط ,
  8. تعلّم الآلة ,
اقرأ المزيد
thumbnail
الثلاثاء، 28 أبريل 2026

ابتكار جديد يعيد صياغة معادلة تدريب النماذج اللغوية بكفاءة عالية

باحثون من جامعة محمد بن زايد للذكاء الاصطناعي، يطورون تقنية جديدة تساعد في الضبط الدقيق للنماذج اللغوية.....

  1. الضبط الدقيق ,
  2. ICLR ,
  3. الخوارزميات ,
  4. النماذج اللغوية ,
  5. المؤتمرات ,
  6. تعلّم الآلة ,
اقرأ المزيد