فاز فريق من الباحثين من جامعة كاليفورنيا في بيركلي وجامعة ويتواترسراند وشركة ليلابا للذكاء الاصطناعي وجامعة محمد بن زايد للذكاء الاصطناعي بجائزة الورقة البحثية المتميزة في مؤتمر الأساليب التجريبية في معالجة اللغات الطبيعية لعام 2024، حيث قدم الفريق دراسة تشجع الباحثين في مجال معالجة اللغات الطبيعية على إعادة التفكير في مفهوم اللغات ذات الموارد المحدودة وطريقة استخدام هذا المصطلح في البحوث.
تتحدث هيلينا هايلو نيغاتو، وهي طالبة دكتوراه في جامعة كاليفورنيا في بيركلي وكانت مؤخراً طالبة زائرة في جامعة محمد بن زايد للذكاء الاصطناعي وشاركت في إعداد الدراسة، عن بداية اهتمامها بمعالجة اللغة الطبيعية عندما جربت قدرات النماذج اللغوية الكبيرة في لغتها الأم، وهي الأمهرية، واللغة التغرينية المستخدمة أيضاً في إثيوبيا، وفوجئت بنتيجة تفاعلاتها مع هذه الأنظمة، قائلة: “في بعض الأحيان كانت المخرجات مسيئة. وفي أحيان أخرى كانت النماذج لا تدعم هاتين اللغتين نهائياً”.
تعكس تجربة نيغاتو التفاوت في قدرة النماذج اللغوية الكبيرة على التعامل مع لغات مختلفة. فبينما تسجل هذه النماذج أداءً جيداً في لغات مثل الإنجليزية والصينية وعدد قليل من اللغات الأخرى، توجد أكثر من 7,000 لغة في العالم، والقليل منها تدعمه التكنولوجيا بشكل كافٍ.
يشير الباحثون عادةً إلى اللغات التي لا تدعمها التكنولوجيا جيداً بأنها “لغات ذات موارد محدودة”. ولكن هذا المصطلح غير وافٍ، كما يقول مونوجيت تشودري، أستاذ معالجة اللغة الطبيعية في جامعة محمد بن زايد للذكاء الاصطناعي وأحد مؤلفي الدراسة: “لا يتم التمييز غالباً بين أنواع مختلفة من اللغات ذات الموارد المحدودة. فتجميع لغات مثل الهندية والعربية والزولو في فئة واحدة أمر غير مناسب نظراً لتاريخ كل لغة وخصائصها الفريدة”.
وتوضح نيغاتو أن مصطلح “اللغات ذات الموارد المحدودة” يخفي الطرق المختلفة التي تسهم من خلالها التكنولوجيا في تهميش اللغات. فاللغات لا تصبح ذات موارد محدودة بسبب خصائص معينة في اللغة نفسها، بل بسبب طريقة تصميم الأنظمة التي تستبعد هذه اللغات.
ومما يزيد الوضع تعقيداً أنه على الرغم من أن اللغات المصنفة على أنها ذات موارد محدودة أقل استخداماً من لغات مثل الإنجليزية والصينية، فإن مجموع الناطقين بها يصل إلى مليارات البشر حول العالم.
لهذه الأسباب تقترح نيغاتو وتشودري وبقية المؤلفين، وهم بنجامين روسمان من جامعة ويتواترسراند وشركة ليلابا للذكاء الاصطناعي، وأتنافو لامبيبو تونغا من جامعة محمد بن زايد للذكاء الاصطناعي وشركة ليلابا للذكاء الاصطناعي، وثامار سولوريو من جامعة محمد بن زايد للذكاء الاصطناعي، تحليلاً جديداً ومفصلاً للجوانب المختلفة التي توصف فيها اللغات بأنها ذات موارد محدودة.
ويأمل الفريق أن يشجع تحليله الباحثين على إيراد تفاصيل أكثر عند مناقشة مفهوم الموارد بحيث يؤدي ذلك إلى تدخلات موجهة لتحسين طرق دعم هذه اللغات. وقد قُدِّمت الدراسة في مؤتمر الأساليب التجريبية في معالجة اللغة الطبيعية الذي عُقِد في ميامي.
قبل أن يتعاون المؤلفون في إعداد هذه الدراسة، كان كل واحد منهم يفكر في تعريف مصطلح “اللغات ذات الموارد المحدودة” وقيمته. وعندما بدأ الفريق عمله معاً، تبين وجود اتفاق بين أعضائه على أن تعريف مصطلح “اللغات ذات الموارد المحدودة” يتغير باستمرار في مجال معالجة اللغة الطبيعية. ووجد الفريق أن هذا الاتجاه يعكس مفارقة أخيل والسلحفاة التي تحدث عنها الفيلسوف زينون (والتي أُخذ منها عنوان البحث). فإذا كانت اللغات ذات الموارد الكبيرة تقدمت وتتحسن باستمرار مع مرور الوقت، فكيف يمكن للغات ذات الموارد المحدودة اللحاق بها؟
هذا سؤال نظري مثير للاهتمام، ولكن المؤلفين قدموا حلاً عملياً وملموساً يتمثل في توفير تفاصيل أكثر عن الطريقة التي تدعم من خلالها التكنولوجيا اللغات، مما يساعد على وضع هيكل لقياس التقدم.
ويوضح الباحثون في الدراسة أن عدم وجود تعريف واضح لخصائص اللغات ذات الموارد المحدودة جعل من الصعب تحديد طرق يمكن من خلالها للمطورين إنشاء أدوات وموارد جديدة لدعم هذه اللغات وقياس تأثيرها. كما أن إعطاء تفاصيل أكثر سيساعد الباحثين على تحديد عتبة لا تُعتبر اللغة بعدها ذات موارد محدودة.
بدأ الباحثون عملهم بإجراء مسح للمقالات المنشورة حديثاً في المجلات العلمية في مجال اللغويات الحاسوبية وتضمنت في عناوينها أو ملخصاتها مصطلحي “الموارد المحدودة” و”الموارد غير الكافية”، حيث وجدوا 150 دراسة بحثية منشورة بين عامي 2017 و2023 تتناول مجموعة واسعة من اللغات البشرية. ثم اتبع الفريق نهج التحليل الموضوعي الاستقرائي محدداً من خلاله أربعة جوانب يُشار فيها إلى اللغات باعتبارها ذات موارد محدودة.
تتصل الجوانب الاجتماعية والسياسية بالقيود التاريخية والاقتصادية التي أثرت على طريقة دراسة اللغات المختلفة واستخدامها في المجتمعات. على سبيل المثال، في المجتمعات الأصلية في أمريكا الشمالية والجنوبية، تُستخدم اللغات الأوروبية مثل الإنجليزية والإسبانية والبرتغالية على نطاق واسع اليوم في سياقات تتراوح من التعليم إلى الإعلام، مما يؤثر على إنشاء البيانات باللغات الأصلية وفي بعض الحالات يهدد بقاءها.
يصف الجانب الثاني الموارد البشرية والرقمية. فعدد الناطقين الأصليين والباحثين في علم اللغة ومعالجة اللغة الطبيعية الذين يعرفون اللغة يؤثر على طريقة بناء الأدوات. والأمر نفسه ينطبق على توافر الموارد الرقمية، مثل مع ويكيبيديا، حيث يجمع المطورون البيانات في كثير من الأحيان عن طريق استخراج البيانات المتاحة للعموم على مواقع الإنترنت.
أما الجانب الثالث فيتعلق بالمعرفة اللغوية، ويصف إنتاج وتوافر المعرفة اللغوية والبيانات والتكنولوجيا ذات الصلة. على سبيل المثال، تتباين معرفة الباحثين للنصوص وبنية اللغات، مما يخلق تحديات في وجه التحليل.
ويرتبط الجانب الرابع بمشاركة المجتمع، الذي يتجاوز الجوانب الأخرى ويؤثر بشكل أساسي على كيفية بناء تكنولوجيا اللغة. فعندما تشارك المجتمعات المحلية بشكل مباشر في تطوير التكنولوجيا، تصبح قيمها جزءاً منها. وفي هذا الشأن تقول نيغاتو: “نريد تعزيز التعاون البنّاء مع أعضاء المجتمع حتى يتمكنوا من إبداء رأيهم في كيفية تصميم التكنولوجيا”.
يعتمد بحث الفريق على أعمال سابقة لتشودري وآخرين اقترحت نظاماً لتصنيف لغات العالم إلى خمس فئات بناءً على مستوى دعمها في تكنولوجيا معالجة اللغة الطبيعية. وعلى الرغم من أن هذا النظام قدم تصنيفاً أكثر تفصيلاً من الأنظمة السابقة، إلا أنه ما زالت هناك لغات مختلفة بشكل كبير مصنفة في فئة واحدة. على سبيل المثال، صُنِّفت اللغة الشيروكية ولغة الكالاليست في نفس الفئة، ولكن هناك تبايناً كبيراً في أعداد الناطقين بهما ومستوى الدعم اللغوي الرقمي لهما، وفقاً للموقع الإلكتروني Ethnologue الذي يتضمن إحصائيات حول اللغات.
يقول تشودري إن هناك نقاشاً مهماً يجري حالياً في مجال معالجة اللغة الطبيعية حول دعم التكنولوجيا في هذا المجال لبعض اللغات وتجاهلها للغات أخرى. وهذه الدراسة يمكن أن تشجع الباحثين على التفكير بعمق أكبر في العلاقة بين اللغات والتكنولوجيا.
وتشجيع التفكير في اللغات من ناحية الموارد المختلفة يمكن أن يشجع أيضاً على اتخاذ إجراءات محددة. على سبيل المثال، إذا هناك عدد كبير من الناطقين بلغة معينة ولكن هذه اللغة تفتقر إلى الموارد الرقمية، فقد يكون من المفيد الاستثمار في جمع البيانات. أما إذا كانت هناك موارد رقمية كثيرة للغة معينة ولكن عدد الناطقين الأصليين بها قليل، فقد تكون المبادرات الهادفة لزيادة عدد الناطقين بها مفيدة أكثر.
ومع ذلك، تؤكد نيغاتو على ضرورة إشراك المجتمعات اللغوية في مناقشة تصنيف لغاتها، حيث تقول: “يجب أن تكون المجتمعات هي التي تحدد كيفية النظر إلى لغاتها”. فلا توجد فائدة كبيرة من فرض تصنيفات مختلفة على اللغات، كما يظهر من استخدام مصطلح اللغات ذات الموارد المحدودة.
يحتفي العالم في 18 ديسمبر من كل عام باليوم العالمي للغة الضاد في لفتَتٍ يقف فيها العالم.....
فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي يطور مجموعة بيانات مرجعية هي الأولى من نوعها.....
باحثون من جامعة محمد بن زايد للذكاء الاصطناعي يطورون أدوات جديدة لتحسين دقة إجابات النماذج اللغوية الكبيرة.....