النماذج اللغوية الكبيرة ترفع تحدي حل “المسائل اللفظية في الرياضيات”

Monday, July 08, 2024

تركز إيكاترينا كوتشمار، الأستاذة المساعدة في قسم معالجة اللغة الطبيعية بجامعة محمد بن زايد للذكاء الاصطناعي، اهتمامها البحثي على تطبيقات معالجة اللغة الطبيعية الخاصة بمجال التعليم. ويذكر أنها أسهمت في تطوير تطبيقات تساعد على تعلم اللغة الإنجليزية كلغة ثانية، إضافة إلى تطبيقات أخرى توفر التوجيه عن كيفية مواءمة النصوص حسب مستويات القراءة المختلفة للمتعلمين.

ويشكل حل “المسائل اللفظية في الرياضيات” مجالاً بحثياً آخراً تهتم كوتشمار حالياً بدراسته، نظراً لما له من أهمية في اختبار مجموعة من المهارات لدى المتعلمين بما فيها: التفكير المنطقي، ومهارات الحساب الأساسية، والمعرفة العامة. وباعتبار اللغة البسيطة التي تُكتَبُ بها هذه المسائل، فإنها تشكل فرصة لأدوات معالجة اللغة الطبيعية – كالنماذج اللغوية الكبيرة – لتقديم حلول لطرق تدريسها بشكل أكثر فعالية للطلاب.

يبقى، مع هذا، تطوير تطبيقات الذكاء الاصطناعي للتعلم دائماً أمرا صعباً، والنماذج اللغوية الكبيرة المتاحة كـ ’شات جي بي تي‘ من ’أوبن أيه آي‘، رغم قدرتها على توليد النصوص بكل سهولة انطلاقا من مدخلات بسيطة، فإنها ليست مناسبة للبيئة الصفية. وتوضح كوتشمار هذا القصور قائلة: “لم يتم تصميم ’شات جي بي تي‘ ليكون مدرساً، وما يزال الكثير مما يجب تطويره لتمكين النماذج اللغوية الكبيرة من القدرات” اللازمة لها لمساعدة الطلاب على التعلم.

ولتعميق البحث في هذا الموضوع، قامت كوتشمار وأديتيا سريفاتسا – في دراسة حديثة – بالنظر في الأخطاء التي ترتكبها النماذج اللغوية الكبيرة مفتوحة المصدر عند حل المسائل اللفظية في الرياضيات. يشار إلى أن هذه الدراسة قُدِّمَت خلال فعاليات المؤتمر السنوي لعام 2024 لفرع أمريكا الشمالية لجمعية اللغويات الحاسوبية الذي انعقد في وقت سابق من هذا الشهر في مكسيكو سيتي.

تحاول كوتشمار وسريفاتسا – مساعد باحث في جامعة محمد بن زايد للذكاء الاصطناعي – من خلال هذه الدراسة تحديدَ الخصائص التي تُصَعِّب على الآلة حل المسائل اللفظية في الرياضيات والتنبؤ بما إذا كان نموذج لغوي كبير ما سيكون قادراً على حل مسألة ما من هذا النوع اعتماداً على خصائصها. وقد يساعد ما ستتوصل إليه هذه الدراسة من نتائج في تطوير طرق أفضل لتدريس المسائل اللفظية في الرياضيات للطلاب.

طُرحَت المسألة اللفظية الرياضية (السؤال)، كما هو موضح في الشكل أعلاه، على النموذج اللغوي الكبير الذي يطلق عليه اسم Llama2-70B الذي طورته ميتا، وذلك كجزء من دراسة أجراها باحثون من جامعة محمد بن زايد للذكاء الاصطناعي، للنظر في قدرة النماذج اللغوية الكبيرة على حل هذا النوع من المسائل. وقد تبين من خلال التجربة أن النموذج اللغوي الكبير [المذكور] رغم قيامه بإجراء العمليات الحسابية بشكل صحيح، إلا أنه أعطى إجابة خاطئة.

مهمة متعددة الأوجه

رغم السهولة التي يجدها الإنسان في حل هذه المسائل، إلا أنها تمثل تحدياً للآلات، ويرجع هذا – تقول كوتشمار – إلى “وجود العديد من المهام المختلفة التي يجب على النموذج القيام بها لحل هذه المسائل مثل: استخراج المعلومات، وتحديد المتغيرات الصحيحة وربطها بالقيم الصحيحة، وفهم أن بعض الكلمات هي عمليات رياضية كالجمع والطرح والقسمة”.

والواقع هو أن النماذج اللغوية الكبيرة لا تقوم بحل المسائل اللفظية في الرياضيات، إلا أنها نجحت في ذلك في كثير من الحالات إلى درجة أن أداءها كان مفاجئاً بحكم أنها غير معدة للقيام بهذه المهام لأنها، بكل بساطة، مصممة للتنبؤ بالكلمة التالية المحتمل ورودها في سياق سلسلة من الكلمات؛ غير أنها تمكنت – تقول كوتشمار – من تطوير هذه القدرة التي ما تزال وليدة، إضافة إلى نوع من التفكير حيث إنها من خلال قدرتها على التنبؤ بالكلمة التالية، اكتسبت أيضًا هذه المهارات الأخرى.

قام الباحثان باستخدام مجموعة بيانات تضم أكثر من 8 آلاف مسألة تم جمعها بغرض اختبار أداء النماذج اللغوية الكبيرة. ويشار إلى أن العمليات الحسابية في هذه المسائل ليست صعبة في حد ذاتها، ولكن طريقة صياغتها يمكن أن تكون مربكة، ويمكن لطلاب المدارس المتوسطة عادةً تحديد الإجابة الصحيحة.

ولرفع هذا التحدي الذي تواجهه هذه النماذج لحل هذه المسائل، قامت كوتشمار وسريفاتسا بتطوير برنامج يحلل المسائل ويقوم بتحديد خصائص محددة موجودة فيها – تسمى بسمات مصطلحات تعلم الآلة. ولأغراض هذه الدراس استخدم الباحثان 23 نوعاً منها مقسمة إلى ثلاث فئات واسعة هي: السمات اللغوية والسمات الرياضية والسمات المرتبطة بالمعرفة العامة.

ففيما يخص السمات اللغوية، فتتعلق بطول السؤال ومستوى تعقيد صياغته؛ أما السمات الرياضية، فتتعلق بنوع العمليات الحسابية ومنهج التفكير الرياضي المطلوب؛ أما السمات المرتبطة بالمعرفة الواقعية وفهم اللغة الطبيعية، فتتعلق بالمعلومات غير الوارد ذكرها في المسألة. وقد تشمل بعض الأمثلة على المعرفة الواقعية عدد السنتات التي تشكل دولارا واحدا أو عملية تحويل كسر إلى نسبة مئوية. وتوضح كوتشمار أنه “إذا كان النموذج يفتقر إلى القدرة على فهم العناصر المختلفة التي تتطلبها المسألة، فلن يتمكن من حلها”.

لقد مكن تحديد سمات المصطلحات الموجودة في المسائل اللفظية في الرياضيات، الباحثان من تمكين النماذج اللغوية الكبيرة من حلها، وبالتالي تحديد الخصائص التي تصعب حل المسائل الرياضية اللفظية على هذه النماذج.

وتعليقا على نتائج الدراسة قالت كوتشمار: “إذا ارتكب نموذج لغوي كبير أخطاء معينة في حل مسألة ما، فمن الوارد أن يرتكب بعض الطلاب هذه الأخطاء أيضاً. كما أننا إذا فهمنا الطرق المختلفة التي يمكن من خلالها إساءة فهم المسألة أو التعامل معها بشكل غير صحيح، يمكننا تحديد سوء الفهم هذا وتزويد الطلاب بالتوجيه الكفيل بمساعدتهم على تجنب تلك الأخطاء.”

وجد الباحثان أن الأسئلة الطويلة والتي يصعب قراءتها وتلك التي تتطلب العديد من العمليات الحسابية والمعرفة الواقعية، أجاب عليها النموذج اللغوي الكبير بشكل غير صحيح في كثير من الأحيان مقارنة بأنواع الأسئلة الأخرى. وقالت كوتشمار أن “الأمر المثير للاهتمام بالنسبة لي هو أنه حتى أقوى النماذج ارتكبت أخطاء في حل هذه المسائل.. إنها مجموعة فرعية صغيرة من العدد الإجمالي للأسئلة، ولكن كانت هناك 96 تمرين لم يتمكن أي نموذج من حلها.”

قام الباحثان، في إطار هذه الدراسة، بتحليل أداء أربعة نماذج لغوية كبيرة بما فيها: Llama2-13B، وLlama2-70B، Mistral-7B وMetaMath-13B؛ وتبين لهما تشابه في أداء النموذجينMetaMath-13B  وLlama2-70B، بالمقارنة مع أداء MetaMath-13B الذي اتسم بعدد إجابات خاطئة أقل وعدد إجابات صحيحة أكثر.

السؤال التالي

تخطط كوتشمار تعميق مسار بحثها في هذا الاتجاه والنظر فيما إذا كان من الممكن التنبؤ بأفضل النماذج وأنسبها للإجابة على سؤال أو مسألة معينة.

كما تهتم الباحثة بدراسة قدرة النماذج على التفكير، وهذا المبحث يطرح تحديا لمجتمع الباحثين، لأنهم غير متأكدين مما إذا كانت النماذج اللغوية الكبيرة تعيد – بكل بساطة – استخدام المعلومات التي سبق أن تعاملت معها خلال مرحلة تدريبها أو إذا كانت فعلا تفكير وفق منهج معين.

وقالت كوتشمار: “نحن لا نفترض أن هذه النماذج تفكر كالبشر، ولكننا نريد أن فهم كيفية تفاعلها مع معطيات وكيفية قيامها باستخلاص الاستنتاجات الصحيحة”.