يمكن أن تواجه النماذج اللغوية الكبيرة صعوبة في توفير إجابات دقيقةٍ وذات معنى للاستفسارات المطروحة عليها خصوصا في اللغات المعروفة لدى متخصصي معالجة اللغة الطبيعية باللغات ذات الموارد القليلة. ويرجع السبب في هذا إلى كون أن النماذج اللغوية الكبيرة تم تطويرها إلى حد كبير اعتماداً على المعلومات مفتوحة المصدر مثل: صفحات الويب، والصحف، والنصوص الحوارية، ونصوص الفيديو، والنصوص الأخرى الموجودة على الإنترنت.
الملاحظ أن الإنجليزية مُنتشرة بشكل واسع على شبكة الإنترنت، والشأن نفسه بالنسبة للغات أخرى مثل العربية والصينية المستخدمتين على نطاق واسع؛ غير أن العالم اليوم يتحدث بأكثر من 7 آلاف لغة، والموارد المتاحة بها عبر الإنترنت قليلة. كما أن هناك لغات أخرى، رغم العدد الكبير للمتحدثين بها مثل “البورمية” التي يبلغ عدد متحدثيها حوالي 30 مليون، والتاغالوغية التي يبلغ عدد متحدثيها حوالي 80 مليون، تعتبر من اللغات ذات الموارد القليلة لأن حضورها وانتشارها على شبكة الإنترنت يتسم بمستوياته المتدنية.
وأوضح هاونان لي، زميل ما بعد الدكتوراه في جامعة محمد بن زايد للذكاء الاصطناعي أن: “التجربة أظهرت أن نماذج اللغات ذات الموارد القليلة ليست بمثل دقة نماذج اللغة الإنجليزية، وحتى شات جي بي تي لا يمكنه توفير إجابات معقولة اعتماداً على الموارد القليلة جداً لبعض من هذه اللغات”. ويشير هاونان في حديثه هنا إلى شات جي بي تي-4، وهو الجيل الرابع للنماذج اللغوية الكبيرة من شركة أوبن أيه آي (OpenAI) الشهيرة في سان فرانسيسكو التي أطلقت شات جي بي تي-4 للجمهور في مارس، والذي يعتبر حالياً أقوى نموذج لغوي كبير من حيث الأداء.
يُشار إلى أن هاونان شارك إلى جانب زميله فجري كوتو، زميل أبحاث ما بعد الدكتوراه في جامعة محمد بن زايد للذكاء الاصطناعي، في تأليف دراسة جديدة يعرضان فيها نهجاً مبتكراً لإنشاء بيانات تدريبية لبرامج منصات النماذج اللغوية الكبيرة بهدف اتباع التعليمات بدقة بلغات أخرى غير الإنجليزية. ويشرح كوتو الهدف من هذه الدراسة قائلاً: “هدفنا المحوري الذي نريد تحقيقه هو تمكين المتحدثين بلغات أخرى من حق الوصول والاستفادة من النماذج اللغوية الكبيرة”.
نهج من بين الطرق المعتمد لتحسين أداء النماذج اللغوية الكبيرة هو تقنية تعرف باسم “ضبط التعليمات”. ويتم، وفقاً لهذه الطريقة، ربط التعليمات أو الأسئلة التي يستخدمها المستخدم عند تفاعله مع النموذج بالإجابات المتوقعة والمناسبة. ويُمكن هذا النهج النموذج من التدرب على كيفية الاستجابة لمجموعة متنوعة من الاستفسارات؛ والتحدي هنا هو قلة مجموعات بيانات التعليمات والاستجابة الثنائية بلغات أخرى غير الإنجليزية.
ولمعالجة هذه الفجوة، قام لي وكوتو وزملاؤهما بتطوير مجموعة بيانات أطلقوا عليها اسم Bactrian-X، وهو اسم جمل ذي سنامين يعيش في آسيا الوسطى.
يشرح فجري كوتو الهدف من تطوير نموذج “Bactrian-X” ويقول: “بالمقارنة، غالباً ما يكون النموذج المستخدم قادراً على تلخيص مستند ما بلغة أخرى غير الإنجليزية، كالإندونيسية مثلاً، والأمر الذي سيتلقاه النموذج للقيام بهذا العمل سيكون مكتوباً باللغة الإنجليزية، ولكن ماذا لو كان المستخدم لا يتحدث الإنجليزية؟ هذا ما نود تغييره مع نموذج “Bactrian-X”، وهو توفير القدرة على إعطاء التعليمات بلغة المستخدم نفسها”.
وتعتمد منصة “Bactrian-X” على نموذجين لضبط التعليمات مفتوحة المصدر، سُميا أيضا بأسماء حيوانات أليفة هما نموذج “ألبكة” (Alpaca) الذي طورته جامعة ستانفورد، ونموذج “دولي” (Dolly) – الاسم الذي أطلق على النعجة المستنسخ – الذي قامت بتطويره شركة “داتابريكس” (Databricks). ويعتبر النموذجين من بين أفضل نماذج ضبط التعليمات، إلا أنهما يستخدمان اللغة الإنجليزية.
ترجم هاونان لي وفجري كوتو وفريق عملهما التعليمات من “ألبكة” و”دولي” إلى 51 لغة أخرى بمساعدة خدمة الترجمة من جوجل، ثم قام الفريق بتغذية جي بي تي من شركة “أوبن إيه آي” بهذه التعليمات المترجمة التي وَلَّدَت إجابات للاستفسارات المترجمة؛ والنتيجة هي مجموعة بيانات كبيرة مؤلفة من 67 ألف زوج من التعليمات والاستجابات لكل لغة من اللغات الـ 51 بإجمالي وصل إلى 3.4 مليون زوج من التعليمات والاستجابات ضمن نموذج “Bactrian-X”.
قام الفريق أيضاً بتدريب نموذج “Bactrian-X” باستخدام تقنية تسمى “التكيف منخفض الرتبة”، وهي تقنية تمكن الباحثين من تعديل مجموعة فرعية صغيرة من المتغيرات لضبط أداء نموذج “Bactrian-X” دون تغيير النموذج الأساسي الأكبر مما يوفر المساحة والمال؛ والنتيجة، وفقاً للباحثين، هي “أكبر مجموعة بيانات للتعليمات متعددة اللغات لأغراض عامة حتى تاريخه“.
قارن الباحثون في الدراسة التي أنجزوها أيضاً بين أداء نموذج “Bactrian-X”، ونماذج التعليمات الأخرى متعددة اللغات ووجدوا أن “نتائج النموذج الذي طوروه كانت دائماً عالية باستمرار مما يشير إلى فعالية مجموعة بيانات التعليمات متعددة اللغات، وتقنية المحول لضبط التعليمات في لغات أخرى غير الإنجليزية”.
يذكر أن الدراسة التي أسهم فيها من جامعة محمد بن زايد للذكاء الاصطناعي كل مينغهاو وو – باحث زائر؛ وألهم فكري آجي – أستاذ مساعد؛ وتيموثي بالدوين – أستاذ ورئيس قسم معالجة اللغة الطبيعية، هدفت إلى تطوير النماذج اللغوية الكبيرة بلغات أخرى من خلال جعل مجموعة البيانات والنماذج الخاصة متاحة بهذه اللغات، وبالتالي تحسين نوعية هذه النماذج وتمكين عدد كبير من الأشخاص في العالم من الاستفادة من قوة هذه التطبيقات.
يحتفي العالم في 18 ديسمبر من كل عام باليوم العالمي للغة الضاد في لفتَتٍ يقف فيها العالم.....
فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي وجامعة موناش يبحث في مدى قدرة النماذج اللغوية.....
اقرأ المزيدفريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي يفوز بجائزة تقديرية عن دراسة بحثية تشجع الباحثين.....