خلال السنوات القليلة الماضية، حقق علماء الذكاء الاصطناعي نجاحات كبيرة، خاصة في تطوير النماذج اللغوية الكبيرة متعدّدة الوسائط القادرة على معالجة الصور والنصوص بلغات مختلفة. وبينما يُعتبر أداء هذه النماذج جيداً في عدد محدود من اللغات مثل الصينية والإنجليزية، فإنه يتراجع عند اختبارها على معظم لغات العالم البالغ عددها نحو سبعة آلاف لغة.
في مسعى لتحسين أداء النماذج اللغوية الكبيرة متعدّدة الوسائط في عدد كبير من اللغات، طوّر باحثون من جامعة محمد بن زايد للذكاء الاصطناعي ومؤسسات أخرى مجموعة بيانات معيارية جديدة لتقييم أداء هذه النماذج. تركّز هذه المجموعة على ما يُسمى بالأسئلة والأجوبة البصرية الثقافية، وهي مهام يُطلب فيها من النماذج فهم النصوص والصور وسياقها الثقافي ودلالاتها.
أُطلق على هذه المجموعة اسم “All Languages Matter Benchmark” أو اختصاراً “ALM Bench” ومعناه “مجموعة كل اللغات”؛ وهي تقيّم أداء النماذج اللغوية الكبيرة متعدّدة الوسائط في 100 لغة، كثير منها لغات ذات موارد محدودة، أي لغات لا توجد فيها بيانات رقمية كافية لتدريب النماذج. ويصف مؤلفو الدراسة هذه المجموعة بأنّها أكبر وأشمل محاولة حتى الآن لتقييم أداء النماذج اللغوية الكبيرة متعدّدة الوسائط.
علاوة على إنشاء مجموعة البيانات “ALM Bench”، اختبر الفريق عليها 16 نموذجاً لغوياً كبيراً متعدّد الوسائط، بعضها مفتوح المصدر وبعضها مغلق المصدر. وقد أظهرت النتائج وجود حاجة ملحّة لرفع مستوى الشمول اللغوي والثقافي في هذه النماذج، خاصة بالنسبة للغات ذات الموارد المحدودة.
يتحدث فهد خان، نائب رئيس قسم الرؤية الحاسوبية في جامعة محمد بن زايد للذكاء الاصطناعي وأستاذ الرؤية الحاسوبية وأحد مؤلفي الدراسة، عن أهمية هذه الدراسة قائلاً: “عمل كثير من العلماء والباحثين على تقييم أداء النماذج في عدد محدود من اللغات ذات الموارد الوفيرة، ولكنّ هناك عدداً كبيراً من اللغات التي لم تُختبر فيها هذه النماذج نهائياً، لذلك أردنا التعرف على مدى شمول هذه النماذج في مجال الاستدلال البصري”.
ويؤكد خان وفريقه أنه لكي تخدم النماذج اللغوية الكبيرة متعدّدة الوسائط مختلف المجتمعات حول العالم، يجب على المطوّرين تحسين قدراتها بما يتجاوز الكفاءة اللغوية، بحيث تصبح قادرة أيضاً على فهم التفاصيل اللغوية والثقافية الكثيرة التي تؤثر على التجربة البشرية.
تضمّ مجموعة البيانات “ALM Bench” أكثر من 22 ألف سؤال وجواب في 19 فئة، من بينها الرياضة والأدب والإعلام والطبخ. وتتراوح اللغات فيها من لغات ذات موارد وفيرة مثل الإسبانية والفرنسية، إلى لغات ذات موارد أقل مثل السيبيوانية والقيرغيزية، وفيها أيضاً ثلاث لهجات عربية هي المصرية والإماراتية والسعودية.
وقد صُمّم البُعد الثقافي للمجموعة بالاعتماد على صور وأسئلة تعكس التقاليد والقيم والعادات المحلية، حيث جمع الباحثون من الإنترنت صوراً ذات دلالات ثقافيّة مرتبطة باللغات المشمولة في مجموعة البيانات، ثم طلبوا من النموذج “GPT-4o” من شركة “أوبن أيه آي” صياغة أسئلة في اللغات المستهدفة بناء على تلك الصور. وخضعت تلك الأسئلة لعملية تدقيق شارك فيها 60 مدققاً، 80% منهم دققوا أسئلة بلغتهم الأم.
يوضح سلمان خان، الأستاذ المساعد في قسم الرؤية الحاسوبية في جامعة محمد بن زايد للذكاء الاصطناعي وأحد مؤلفي الدراسة، أهداف الدراسة بقوله: “كان هذا مشروعاً كبيراً سعينا من خلاله إلى إنشاء معيار يسمح لنا بتحليل وتقييم النماذج اللغوية البصرية المختلفة، سواء كانت مفتوحة المصدر أو مغلقة المصدر، لتحديد الفجوات فيها ومعرفة اللغات التي تمثل تحدياً بالنسبة لها والجوانب الثقافية التي يصعب عليها فهمها”.
وقد سبق للعلماء إنشاء مجموعات بيانات تضم أسئلة وأجوبة حول محتوى بصري، لكن مجموعة “ALM Bench” تضمّ عدداً أكبر من اللغات مقارنة بالمحاولات السابقة. كما أن مجموعات البيانات المعيارية الأخرى تتكون عادةً من أسئلة متعدّدة الاختيارات؛ أما “ALM Bench”، فتتميز بأنها تجمع بين الأسئلة المتعددة الاختيارات، والأسئلة التي تتطلب الإجابة بـ “صحيح” أو “خطأ”، والأسئلة المفتوحة، ما يسمح بإجراء اختبار أشمل للنماذج اللغوية الكبيرة متعدّدة الوسائط.
تظهر نتائج الدراسة وجود فجوة كبيرة في الأداء بين النماذج مفتوحة المصدر والنماذج مغلقة المصدر، حيث تفوّقت النماذج الخاصة مثل “GPT-4o” باستمرار على النماذج مفتوحة المصدر، محققة دقة أعلى في اللغات ذات الموارد الوفيرة واللغات ذات الموارد المحدودة على حد سواء. فقد سجل النموذج “GPT-4o” دقة إجمالية وصلت نسبتها 78.8%، بينما حقق أفضل نموذج مفتوح المصدر، وهو “GLM-4V-9B” الذي طوره علماء من جامعة تسينغوا وشركة “Zhipu AI”، دقة إجمالية وصلت نسبتها 51.8% فقط.
ولكن حتى أفضل النماذج أداءً واجهت صعوبات في التعامل مع اللغات ذات الموارد المحدودة، خاصة اللغات المستخدمة في أفريقيا وجنوب آسيا. على سبيل المثال، بينما بلغت دقة النموذج “GPT-4o” في اللغة الإنجليزية 88.4%، تراجعت هذه الدقة إلى 50.8% فقط في اللغة الأمهرية المستخدمة في إثيوبيا.
يوضح سلمان خان أنّ التباين في الأداء بين النماذج مفتوحة المصدر والنماذج مغلقة المصدر على مجموعة البيانات المعيارية “ALM Bench” كان كبيراً بدرجة غير متوقعة؛ فهناك مجموعات أخرى تقيّم قدرات مثل فهم الصور والاستدلال المعقّد بناءً على تفسير الرسوم البيانية والجداول والإنفوجراف، وغيرها من المهارات. وفي هذه المهام، لا يظهر هذا التباين الشديد في الأداء بين النماذج مفتوحة المصدر والنماذج مغلقة المصدر، بل قد تتفوّق النماذج مفتوحة المصدر في بعض الحالات المحدّدة، ولكن هذا لم يحدث في مجموعة الأسئلة والأجوبة البصرية الثقافية.
على الرغم من أنّه لا يمكننا أن نحدد بدقة السبب الحقيقي وراء تفوق النماذج مغلقة المصدر، فإن سلمان خان يُرجّح أن ذلك يُعزى إلى تغذية هذه النماذج أثناء مرحلة التدريب بكمية أكبر من البيانات المرتبطة باللغات ذات الموارد المحدودة.
ووجد الباحثون أيضاً أنّ إضافة صور إلى الأوامر الموجهة للنماذج تسهم في تحسين دقتها بشكل كبير، في حين أنه تبين لهم أن دقّة النموذج “GPT-4o” قد تراجعت بنسبة 27% في مختلف اللغات عندما لم يتم تزويده بالصور.
يعتمد الناس بشكل متزايد على أنظمة الذكاء الاصطناعي التوليدي لتزويدهم بالمعلومات ومساعدتهم في أداء المهام الرقمية والإبداعية. ولكن لتكون هذه الأنظمة مفيدة للجميع، يجب أن تحترم السياقات الثقافية واللغوية لمستخدميها. يقول سلمان خان في هذا الشأن: “من الضروري أن تفهم هذه النماذج الثقافات المحلية والأعراف الاجتماعية والشخصيات البارزة وعادات وتقاليد الناس في المناطق المختلفة. وهذا كله يجب أن يكون مدمجاً في أي نموذج ذكاء اصطناعي توليدي.”
يكشف أداء النماذج على مجموعة البيانات المعيارية “ALM Bench” عن ضعف هذه النماذج ليس في لغات محددة فحسب، بل في عائلات لغوية كاملة، مثل عائلة اللغات الأطلسية الكونغولية وعائلة اللغات التركيّة. وفي هذا الإطار، يقول فهد خان: “من خلال هذا العمل، سعينا أيضاً إلى تحديد العائلات اللغوية التي تحظى بتمثيل أقل نسبياً في مجموعات البيانات الحالية الخاصة بفهم اللغة البصرية، وذلك على أمل سد هذه الفجوة.”
تبرز هذه الدراسة الحاجة إلى تطوير بيانات تدريب أكثر تنوّعاً وشمولاً تُمثّل عدداً أكبر من آلاف اللغات المستخدمة في العالم. فمجموعات البيانات الحالية منحازة بشكل كبير إلى الثقافات الغربية واللغات ذات الموارد الوفيرة، مما يحدّ من إمكانية استعمالها في المجتمعات الأخرى حول العالم. وسد هذه الفجوات يستلزم بذل جهود متواصلة من جانب الباحثين والقطاع الصناعي والمجتمعات اللغوية نفسها.
علماء من جامعة محمد بن زايد للذكاء الاصطناعي يطورون طريقة جديدة ستساعد الأطباء على توقع مسار تطور.....
تشاو تشين يوضح كيف أن إعادة تدريب نماذج أساسية باستخدام محولات مكنه من تحسين أدائها، وما قد.....
طريقة الجديدة لتعلم الآلة تستطيع تحليل السجلات الطبية الإلكترونية، وقد تساعد الأطباء في تحديد المرضى المعرضين لخطر.....