الصفحة الرئيسية / الأخبار / ضبط النماذج اللغوية الكبيرة بلغات أخرى

ضبط النماذج اللغوية الكبيرة بلغات أخرى

الجمعة، 22 ديسمبر 2023

يمكن أن تواجه النماذج اللغوية الكبيرة صعوبة في توفير إجابات دقيقةٍ وذات معنى للاستفسارات المطروحة عليها خصوصا في اللغات المعروفة لدى متخصصي معالجة اللغة الطبيعية باللغات ذات الموارد القليلة. ويرجع السبب في هذا إلى كون أن النماذج اللغوية الكبيرة تم تطويرها إلى حد كبير اعتماداً على المعلومات مفتوحة المصدر مثل: صفحات الويب، والصحف، والنصوص الحوارية، ونصوص الفيديو، والنصوص الأخرى الموجودة على الإنترنت.

الملاحظ أن الإنجليزية مُنتشرة بشكل واسع على شبكة الإنترنت، والشأن نفسه بالنسبة للغات أخرى مثل العربية والصينية المستخدمتين على نطاق واسع؛ غير أن العالم اليوم يتحدث بأكثر من 7 آلاف لغة، والموارد المتاحة بها عبر الإنترنت قليلة. كما أن هناك لغات أخرى، رغم العدد الكبير للمتحدثين بها مثل “البورمية” التي يبلغ عدد متحدثيها حوالي 30 مليون، والتاغالوغية التي يبلغ عدد متحدثيها حوالي 80 مليون، تعتبر من اللغات ذات الموارد القليلة لأن حضورها وانتشارها على شبكة الإنترنت يتسم بمستوياته المتدنية.

وأوضح هاونان لي، زميل ما بعد الدكتوراه في جامعة محمد بن زايد للذكاء الاصطناعي أن: “التجربة أظهرت أن نماذج اللغات ذات الموارد القليلة ليست بمثل دقة نماذج اللغة الإنجليزية، وحتى شات جي بي تي لا يمكنه توفير إجابات معقولة اعتماداً على الموارد القليلة جداً لبعض من هذه اللغات”. ويشير هاونان في حديثه هنا إلى شات جي بي تي-4، وهو الجيل الرابع للنماذج اللغوية الكبيرة من شركة أوبن أيه آي (OpenAI) الشهيرة في سان فرانسيسكو التي أطلقت شات جي بي تي-4 للجمهور في مارس، والذي يعتبر حالياً أقوى نموذج لغوي كبير من حيث الأداء.

يُشار إلى أن هاونان شارك إلى جانب زميله فجري كوتو، زميل أبحاث ما بعد الدكتوراه في جامعة محمد بن زايد للذكاء الاصطناعي، في تأليف دراسة جديدة يعرضان فيها نهجاً مبتكراً لإنشاء بيانات تدريبية لبرامج منصات النماذج اللغوية الكبيرة بهدف اتباع التعليمات بدقة بلغات أخرى غير الإنجليزية. ويشرح كوتو الهدف من هذه الدراسة قائلاً: “هدفنا المحوري الذي نريد تحقيقه هو تمكين المتحدثين بلغات أخرى من حق الوصول والاستفادة من النماذج اللغوية الكبيرة”.

نهج من بين الطرق المعتمد لتحسين أداء النماذج اللغوية الكبيرة هو تقنية تعرف باسم “ضبط التعليمات”. ويتم، وفقاً لهذه الطريقة، ربط التعليمات أو الأسئلة التي يستخدمها المستخدم عند تفاعله مع النموذج بالإجابات المتوقعة والمناسبة. ويُمكن هذا النهج النموذج من التدرب على كيفية الاستجابة لمجموعة متنوعة من الاستفسارات؛ والتحدي هنا هو قلة مجموعات بيانات التعليمات والاستجابة الثنائية بلغات أخرى غير الإنجليزية.

ولمعالجة هذه الفجوة، قام لي وكوتو وزملاؤهما بتطوير مجموعة بيانات أطلقوا عليها اسم Bactrian-X، وهو اسم جمل ذي سنامين يعيش في آسيا الوسطى.

يشرح فجري كوتو الهدف من تطوير نموذج “Bactrian-X” ويقول: “بالمقارنة، غالباً ما يكون النموذج المستخدم قادراً على تلخيص مستند ما بلغة أخرى غير الإنجليزية، كالإندونيسية مثلاً، والأمر الذي سيتلقاه النموذج للقيام بهذا العمل سيكون مكتوباً باللغة الإنجليزية، ولكن ماذا لو كان المستخدم لا يتحدث الإنجليزية؟ هذا ما نود تغييره مع نموذج “Bactrian-X”، وهو توفير القدرة على إعطاء التعليمات بلغة المستخدم نفسها”.

وتعتمد منصة “Bactrian-X” على نموذجين لضبط التعليمات مفتوحة المصدر، سُميا أيضا بأسماء حيوانات أليفة هما نموذج “ألبكة” (Alpaca) الذي طورته جامعة ستانفورد، ونموذج “دولي” (Dolly) – الاسم الذي أطلق على النعجة المستنسخ – الذي قامت بتطويره شركة “داتابريكس” (Databricks). ويعتبر النموذجين من بين أفضل نماذج ضبط التعليمات، إلا أنهما يستخدمان اللغة الإنجليزية.

ترجم هاونان لي وفجري كوتو وفريق عملهما التعليمات من “ألبكة” و”دولي” إلى 51 لغة أخرى بمساعدة خدمة الترجمة من جوجل، ثم قام الفريق بتغذية جي بي تي من شركة “أوبن إيه آي” بهذه التعليمات المترجمة التي وَلَّدَت إجابات للاستفسارات المترجمة؛ والنتيجة هي مجموعة بيانات كبيرة مؤلفة من 67 ألف زوج من التعليمات والاستجابات لكل لغة من اللغات الـ 51 بإجمالي وصل إلى 3.4 مليون زوج من التعليمات والاستجابات ضمن نموذج “Bactrian-X”.

قام الفريق أيضاً بتدريب نموذج “Bactrian-X” باستخدام تقنية تسمى “التكيف منخفض الرتبة”، وهي تقنية تمكن الباحثين من تعديل مجموعة فرعية صغيرة من المتغيرات لضبط أداء نموذج “Bactrian-X” دون تغيير النموذج الأساسي الأكبر مما يوفر المساحة والمال؛ والنتيجة، وفقاً للباحثين، هي “أكبر مجموعة بيانات للتعليمات متعددة اللغات لأغراض عامة حتى تاريخه“.

قارن الباحثون في الدراسة التي أنجزوها أيضاً بين أداء نموذج “Bactrian-X”، ونماذج التعليمات الأخرى متعددة اللغات ووجدوا أن “نتائج النموذج الذي طوروه كانت دائماً عالية باستمرار مما يشير إلى فعالية مجموعة بيانات التعليمات متعددة اللغات، وتقنية المحول لضبط التعليمات في لغات أخرى غير الإنجليزية”.

يذكر أن الدراسة التي أسهم فيها من جامعة محمد بن زايد للذكاء الاصطناعي كل مينغهاو وو – باحث زائر؛ وألهم فكري آجي – أستاذ مساعد؛ وتيموثي بالدوين – أستاذ ورئيس قسم معالجة اللغة الطبيعية، هدفت إلى تطوير النماذج اللغوية الكبيرة بلغات أخرى من خلال جعل مجموعة البيانات والنماذج الخاصة متاحة بهذه اللغات، وبالتالي تحسين نوعية هذه النماذج وتمكين عدد كبير من الأشخاص في العالم من الاستفادة من قوة هذه التطبيقات.

أخبار ذات صلة

الأربعاء، 18 فبراير 2026

جامعة محمد بن زايد للذكاء الاصطناعي تصدر تقريرها حول الذكاء الاصطناعي للجنوب العالمي في الهند

يحدّد التقرير 12 سؤالاً بحثياً جوهرياً الهدف منها توجيه جهود العشرية القادم البحثية في اتجاه تطوير ذكاء.....

اقرأ المزيد

الاثنين، 16 فبراير 2026

مبادرة بحثية في جامعة محمد بن زايد للذكاء الاصطناعي تحصل على تمويل بقيمة مليون دولار أمريكي من مؤسسة غوغل

مؤسسة غوغل توفر دعماً بقيمة مليون دولار أمريكي للبروفيسورة ثامار سولوريو لقيادة مبادرة بحثية تحويلية هدفها تطوير.....

اقرأ المزيد

الاثنين، 29 ديسمبر 2025

تحسين فهم النماذج اللغوية للثقافة العربية عبر تبادل المعرفة بين الثقافات

تكشف أبحاث جديدة من جامعة محمد بن زايد للذكاء الاصطناعي كيف يمكن لعدد محدود من الأمثلة الموجّهة.....

اقرأ المزيد

ضبط النماذج اللغوية الكبيرة بلغات أخرى

أخبار ذات صلة

جامعة محمد بن زايد للذكاء الاصطناعي تصدر تقريرها حول الذكاء الاصطناعي للجنوب العالمي في الهند

مبادرة بحثية في جامعة محمد بن زايد للذكاء الاصطناعي تحصل على تمويل بقيمة مليون دولار أمريكي من مؤسسة غوغل

تحسين فهم النماذج اللغوية للثقافة العربية عبر تبادل المعرفة بين الثقافات

من نحن

الموارد

البرامج

التقويم

ضبط النماذج اللغوية الكبيرة بلغات أخرى

أخبار ذات صلة

جامعة محمد بن زايد للذكاء الاصطناعي تصدر تقريرها حول الذكاء الاصطناعي للجنوب العالمي في الهند

مبادرة بحثية في جامعة محمد بن زايد للذكاء الاصطناعي تحصل على تمويل بقيمة مليون دولار أمريكي من مؤسسة غوغل

تحسين فهم النماذج اللغوية للثقافة العربية عبر تبادل المعرفة بين الثقافات

اشترك في "ذي نود"