الوعي الثقافي في الذكاء الاصطناعي: معيار جديد للإجابة على الأسئلة المتعلقة بالصور

Monday, December 09, 2024
A group of Indonesians look happily at a smartphone.

في السنوات القليلة الماضية، عمل مطورو الذكاء الاصطناعي على بناء نماذج يمكنها معالجة النصوص والصور يُشار إليها بالنماذج اللغوية الكبيرة متعددة الوسائط، من بينها ChatGPT من شركة “أوبن أيه آي” و LLaMA من شركة “ميتا”. وهذه النماذج تعمل بعدد كبير من اللغات، ولكن أداءها يتباين بشكل كبير من لغة إلى أخرى، حيث يرتفع هذا الأداء إلى أعلى مستوياته في اللغتين الصينية والإنجليزية وعدد قليل من اللغات الأوروبية الأخرى، وينخفض أو ينعدم تماماً في آلاف اللغات الأخرى المستخدمة حول العالم.

بينما يُعتبر إتقان اللغة شرطاً أساسياً للنماذج اللغوية الكبيرة المتعددة الوسائط لتكون مفيدة للناس، فيجب أيضاً أن تتمتع هذه النماذج بقدرات تتعلق بالثقافات المحلية والاختلافات الدقيقة بين البلدان في العادات والتقاليد وآداب السلوك.

قام مؤخراً فريق من الباحثين من جامعة محمد بن زايد للذكاء الاصطناعي ومؤسسات أخرى بإعداد دراسة بحثية تضمنت بناء مجموعة بيانات مرجعية هي الأولى من نوعها لقياس فهم النماذج اللغوية الكبيرة للثقافات بهدف تحسين أدائها في مجموعة كبيرة من اللغات. وشارك في العمل على هذا المشروع أكثر من 70 باحثاً.

وإلى جانب بناء مجموعة البيانات، اختبر الباحثون أيضاً العديد من النماذج اللغوية الكبيرة، ووجدوا أن الأسئلة المتعلقة بالثقافات تشكل تحدياً حتى بالنسبة لأفضل النماذج، ما يشير إلى وجود حاجة كبيرة لتحسين أداء النماذج في العديد من اللغات والثقافات.

ستُعرض النتائج التي خلص إليها الباحثون في المؤتمر السنوي الثامن والثلاثين لنظم معالجة المعلومات العصبية الذي سيُعقد في فانكوفر. وبحسب موقع إلكتروني يتابع المؤتمر، فقد قُدِّمت للمؤتمر أكثر من 15 ألف دراسة بحثية لم يُقبل منها سوى 61 دراسة.

يقول ديفيد روميرو، وهو طالب دكتوراة في قسم الرؤية الحاسوبية في جامعة محمد بن زايد للذكاء الاصطناعي وأحد المشاركين في إعداد الدراسة: “نأمل أن يشجع هذا على بناء نماذج أكثر اطلاعاً على الثقافات المختلفة حتى يصبح الذكاء الاصطناعي أكثر عدلاً بالنسبة لعدد أكبر من الناس”.

النطاق والعمق

تختبر مجموعة البيانات المرجعية، التي أطلق عليها روميرو وزملاؤه اسم CVQA، قدرة النماذج اللغوية الكبيرة على الإجابة على الأسئلة المتعلقة بالصور ذات البعد الثقافي. وهي تتضمن صوراً لأطباق محلية وشخصيات معروفة ومباني ومعالم مشهورة وغير ذلك.

تشمل مجموعة البيانات CVQA أسئلة متعددة الخيارات وأسئلة مفتوحة باللغات المحلية واللغة الإنجليزية. وهي تضم أسئلة بـ 31 لغة مكتوبة في 13 نصاً. ويتجاوز العدد الإجمالي للأسئلة 10 آلاف سؤال يغطي 10 فئات، مثل الرياضة والجغرافيا والطعام.

قسم الباحثون مجموعة البيانات إلى فئات تضم كل منها اسم بلد ولغة، مثلاً “نيجيريا-إيجبو”، ما يعني ربط اللغة ببلد معين. وهي تشمل ست لغات مستخدمة في الهند (البنغالية والهندية والمراثية والتاميلية والتيلوغو والأوردية)، وأربع لغات مستخدمة في إندونيسيا (الإندونيسية والجاوية والمينانغكاباو والسوندية). وأضيفت اللغة الإسبانية لسبع بلدان (الأرجنتين، تشيلي، كولومبيا، الإكوادور، المكسيك، إسبانيا، أوروغواي)، كما أُدرجت اللغة الصينية لكل من الصين وسنغافورة. وتحتوي كل فئة للغة وبلد معينين على 200 سؤال على الأقل. وتشمل بعض اللغات الأقل دراسة البريتانية والأيرلندية والمينانغكاباو والمنغولية. وتتضمن المجموعة بشكل إجمالي 39 فئة من اللغات والبلدان.

وأشار روميرو إلى أنه سبق إعداد مجموعات بيانات مرجعية أخرى للإجابة على الأسئلة المتعلقة بالصور، ولكنها كانت تقوم عادةً على ترجمات من اللغة الإنجليزية، كما أن بعضها استخدم نفس الصور بعدة لغات، ما يعني أنها تفتقر إلى الخصوصية الثقافية، مضيفاً أن هذه المجموعات الأخرى تميل أيضاً نحو الثقافات الغربية.

يوضح الدكتور ألهم فكري آجي، الأستاذ المساعد في قسم معالجة اللغات الطبيعية في جامعة محمد بن زايد للذكاء الاصطناعي وأحد المشاركين في إعداد الدراسة، أن مجموعات البيانات المترجمة تمثل مشكلة “لأنها بلا سياق وقد تتضمن أسئلة لا تُطرح بالضرورة في المنطقة المعنية. ولهذا أردنا تجميع بيانات يكتبها أشخاص من تلك المناطق”.

تعاون عبر القارات

تمكن الفريق من إدراج عدد كبير من اللغات والصور ذات الأهمية الثقافية في مجموعة البيانات المرجعية من خلال العمل مع ناطقين أصليين من جميع أنحاء العالم عبر نهج يقوم على تعاون شامل ويعزز التنوع اللغوي والثقافي.

يقول آجي في هذا الشأن: “عملنا بشكل وثيق مع متخصصين في معالجة اللغات الطبيعية من مناطق مختلفة. فأنا مثلاً عملت مع متخصصين من جنوب شرق آسيا، والدكتورة ثامار سولوريو، مديرة شؤون طلبة الدراسات العليا والأستاذة في قسم معالجة اللغات الطبيعية في جامعة محمد بن زايد للذكاء الاصطناعي، عملت مع متخصصين من الأمريكيتين”.

وتولى بناء مجموعة البيانات متخصصون يتقنون اللغات المحلية وعايشوا الثقافة المعنية بشكل مباشر. وأُخذت الكثير من الصور في مجموعة البيانات من شبكة الإنترنت، ولكن الباحثين طلبوا أيضاً من هؤلاء المتخصصين إضافة صورهم الخاصة، ما أضاف تنوعاً وعمقاً أكبر للأسئلة الثقافية التي يمكن طرحها. كما أن إضافة صور غير موجودة على الإنترنت تساعد على منع ظاهرة “تسرب البيانات”، التي تحدث عندما يطلع النموذج أثناء تدريبه على بيانات تُستخدم كمعيار لقياس الأداء، ما يجعل أداءه يبدو أفضل مما هو عليه في الحقيقة.

أمثلة على الصور والأسئلة والإجابات في مجموعة بيانات CVQA المصممة لاختبار الوعي الثقافي للنماذج اللغوية البصرية.

لكل صورة، كتب المتخصصون أسئلة وإجابات ذات بعد ثقافي وتتطلب معرفة السياق، بحيث يكون لكل سؤال إجابة صحيحة واحدة وثلاث إجابات خاطئة. وإلى جانب الخيارات المتعددة، تتضمن مجموعة البيانات أسئلة وإجابات مفتوحة توفر طريقة لقياس أداء النماذج تشبه إلى حد كبير كيفية استخدامها. وقام متخصص واحد على الأقل بفحص كل زوج من الأسئلة والإجابات والتحقق من صحتها.

يوضح روميرو ذلك بقوله: “قام المتخصصون الذين عملنا معهم بتصنيف البيانات الخاصة ببلدانهم. كنا نعلم أن البيانات التي سيقدمونها ستكون عالية الجودة لأنهم يعرفون ثقافاتهم ولغاتهم”.

تحدٍ كبير

اختبر الباحثون ثمانية نماذج، من بينها نماذج مفتوحة المصدر ونماذج مغلقة المصدر. وحقق GPT-4o من شركة “أوبن أيه آي” أفضل أداء، حيث كانت إجاباته صحيحة بنسبة 74% باللغات المحلية وبنسبة 75% باللغة الإنجليزية. ومن بين النماذج مفتوحة المصدر، كان أداء LLaVA-1.5-7B هو الأفضل، حيث أجاب على الأسئلة بشكل صحيح بنسبة 35% باللغات المحلية ونحو 50% باللغة الإنجليزية.

كما قارن الباحثون بين أداء النموذجين LLaVA و InstructBLIP على مجموعة البيانات CVQA وأدائهما على مجموعات بيانات أخرى عند الإجابة على أسئلة متعلقة بالصور. وقد تبين أن أداء النموذجين أسوأ مع مجموعة البيانات CVQA، ما يدل على صعوبة الأسئلة المتعلقة بالثقافة بالنسبة للنموذجين.

يقول روميرو معلقاً على نتيجة هذه المقارنة: “كان من اللافت وجود تشابه بين أداء جميع النماذج بشكل عام على الرغم من اختلاف أحجامها. فقد نرى أداءً ضعيفاً لنموذج صغير في لغة معينة، ثم نجد أن أداء النماذج الأكبر ضعيف أيضاً بتلك اللغة”.

 

أداء النماذج حسب زوج اللغة والبلد. كان أداء جميع النماذج متشابهاً على الرغم من اختلاف أحجامها.

على الرغم من أن النموذجين مغلقي المصدر Gemini-1.5-Flash و GPT-4o كانا أفضل من النماذج مفتوحة المصدر، إلا أنهما واجها صعوبات في التعامل مع اللغات المحلية. ولكن أداء Gemini باللغات المحلية كان أفضل من أدائه باللغة الإنجليزية.

وتم اختبار قدرة النماذج على الإجابة على الأسئلة المفتوحة، أي دون الاختيار من خيارات متعددة، لأنها أقرب إلى كيفية استخدامها في الواقع. وهنا تراجع أداء LLaVA بشكل كبير، من حوالي 50% في حالة الخيارات المتعددة إلى 30% في حالة الأسئلة المفتوحة. وهذا بحسب روميرو “يدل على أن أداءه أسوأ عندما يُختبر بطريقة تشبه إلى حد كبير سيناريو الحياة الواقعية”.

بشكل عام، وجد الباحثون أن مجموعة البيانات المرجعية شكلت “تحدياً كبيراً”، خاصة بالنسبة للنماذج اللغوية الكبيرة مفتوحة المصدر، حيث لم تتجاوز دقة إجاباتها 50%. وبينما تحسنت دقة الإجابة على الأسئلة المتعلقة بالصور بشكل كبير في السنوات الأخيرة، فإن مجموعة البيانات المرجعية هذه تسلط الضوء على مقدار التقدم الإضافي اللازم.

من الناس للناس

ينظر آجي وروميرو وزملاؤهما في دراستهم إلى مجموعات البيانات المعيارية باعتبارها لا تمثل بالضرورة مقاييس موضوعية للثقافة، بل بصفتها مؤشرات على الثقافة، وهو مفهوم اقترحه محمد فريد أديلازواردا، الباحث المساعد في جامعة محمد بن زايد للذكاء الاصطناعي.

وهم يؤكدون أنه على الرغم من الحجم الكبير لمجموعة البيانات CVQA، فهي غير شاملة، حيث تتضمن جزءاً صغيراً من أكثر من ستة آلاف لغة مستخدمة في العالم. ولكنها خطوة ضرورية ومهمة في الجهود الهادفة لتحسين النماذج اللغوية الكبيرة المتعددة الوسائط. وهو أمر يؤكده آجي بقوله: “إذا لم يكن هناك مجموعة بيانات مرجعية، فلن نتمكن من قياس التقدم”.

ويشير روميرو إلى أن هناك اتجاهاً واضحاً في أوساط البحث والتطوير في مجال الذكاء الاصطناعي نحو تطوير نماذج يمكنها فهم مجموعة أوسع من الثقافات بشكل أفضل، ليس فقط لأن هذا ما يجب فعله، بل أيضاً لأنه يمكن أن يُحسن أداء النماذج، حيث يقول: “إن تعريف الذكاء الاصطناعي على ثقافات ولغات متنوعة سيُحسن أداءه. وقد يجعله ذلك أكثر إبداعاً بسبب اطلاعه على قدر أكبر من التقاليد والمعرفة الثقافية”.

يؤكد آجي أن مجموعة البيانات CVQA تمثل خطوة مهمة نحو جعل نماذج الذكاء الاصطناعي أكثر شمولاً ووعياً للجوانب الثقافية، وهي تسلط الضوء على نقاط الضعف في النماذج الحالية. والتعاون الواسع في بناء مجموعة البيانات يذكرنا بأن تطوير الذكاء الاصطناعي لا يمكن أن يقوم به أشخاص منعزلون بل يتطلب معرفة بتجارب الأشخاص الذين سيخدمهم. ويختتم كلامه قائلاً: “لقد تمكنا من إنشاء الكثير من البيانات عالية الجودة بفضل مساعدة أشخاص من هذه المجتمعات المختلفة. فعندما نبني تكنولوجيا معالجة اللغات الطبيعية، يجب علينا إشراك أشخاص يتحدثون بهذه اللغات”.

أخبار ذات صلة