معيار جديد لتقييم قدرة النماذج اللغوية الكبيرة على التدريس

Monday, May 05, 2025

من المعروف منذ عقود أن الطلاب الذين يتلقّون دروساً خصوصية فردية يحققون نتائج تعليمية أفضل بكثير من الذين يعتمدون فقط على التعليم في المدرسة. وقد نشر عالم النفس التربوي بنجامين بلوم هذه النتائج في ثمانينيات القرن الماضي، وأطلق على هذه الظاهرة اسم “مسألة 2 سيغما”، لأن أداء الطلاب الذين يتلقّون دروساً خصوصية يفوق أداء أقرانهم الذين يتعلمون في الفصول الدراسية التقليدية بمقدار انحرافين معياريين.

رغم ذلك، لم يكن بالإمكان تقديم دعم فردي لعدد كبير من الطلاب بسبب عدم توفر عدد كافٍ من المدرّسين المؤهلين لتقديم هذه المساعدة.

لكن هذا الواقع قد يتغير مع ظهور النماذج اللغوية الكبيرة التي يمكنها تقديم تعليم فردي مخصص لعدد أكبر بكثير من الطلاب.

في هذا السياق، اتخذ فريق من جامعة محمد بن زايد للذكاء الاصطناعي خطوة مهمة في هذا الاتجاه من خلال تطوير نظام تقييم ومعيار جديد يمكن استخدامه لقياس قدرة النماذج اللغوية الكبيرة على التدريس. وقد حظي الباحثون مؤخراً بالتكريم عن عملهم هذا خلال المؤتمر السنوي لفرع جمعية اللغويات الحاسوبية في القارة الأمريكية 2025 الذي عُقد في مدينة ألباكركي بولاية نيومكسيكو الأمريكية، حيث حصلوا على جائزة “SAC” للموارد والتقييم.

يقول كوشال كومار موريا، الباحث المشارك لمرحلة ما بعد الدكتوراة في جامعة محمد بن زايد للذكاء الاصطناعي والمؤلف الرئيسي للدراسة: “النماذج اللغوية الكبيرة بمثابة قواعد بيانات معرفية ضخمة توفر إمكانات واعدة في مجال التدريس. ونحن نسعى إلى الاستفادة من المعرفة الهائلة الموجودة فيها في التعليم”.

التدريس الآلي بين الماضي والحاضر

على مدى سنوات طويلة، عمل العلماء على تطوير ما يُعرف بأنظمة التدريس الذكية بهدف مساعدة المتعلمين. كانت الأنظمة الأولى مصممة لتقديم ملاحظات للمتعلمين وفقاً لقواعد مُبرمجة مسبقاً. ورغم دقة هذه الأنظمة وفاعليتها في حالات محددة، إلا أنها لم تكن قادرة على التعامل مع التنوّع الكبير في أسئلة المتعلمين، كما توضّح إيكاترينا كوشمار الأستاذة المساعدة في قسم معالجة اللغات الطبيعية بجامعة محمد بن زايد للذكاء الاصطناعي والمشاركة في تأليف الدراسة.

أما النماذج اللغوية الكبيرة، فهي تعمل بطريقة مختلفة تماماً. فهي لا تقدّم إجابات بناءً على قواعد مبرمجة مسبقاً، وإنما تنتج إجاباتها وفقاً لأنماط تستنتجها من البيانات التي تدربت عليها، مما يعني أنها تتمتع بقدر أكبر بكثير من المرونة مقارنةً بالأنظمة التقليدية القائمة على القواعد. لكن كوشمار تشير إلى أن النماذج اللغوية الكبيرة “ليست مناسبة تماماً للتدريس حالياً، لأنها لا تتضمن مبادئ تعليمية مدمجة في آلية عملها”.

وتواصل كوشمار كلامها قائلة إنه قد يكون من الممكن دمج مبادئ من علوم التعلّم ضمن النماذج اللغوية الكبيرة لكي تتمكن من خدمة المتعلمين بشكل أفضل. لكن الباحثين في مجال الذكاء الاصطناعي يحتاجون أولاً إلى تكوين فكرة عن أفضل الممارسات في التدريس، ووضع معايير لتقييم أداء النماذج اللغوية الكبيرة بناء على تلك المبادئ. وعندها فقط سيكون بإمكانهم تحديد نقاط القوة والضعف في هذه النماذج في سياق مساعدة الطلاب.

وتختتم كوشمار بالقول إن إمكانات هذه النماذج في مساعدة الطلاب هائلة: “بفضل الذكاء الاصطناعي يمكننا توفير مدرس شخصي لكل فرد على غرار المساعد الرقمي الشخصي في الهواتف المحمولة. لن يكون هذا بديلاً عن التعليم الصفي، وإنما مكمّلاً له ومعززاً لما يتعلمه الطالب في المدرسة”.

رؤى من علم التعلّم

طوّر باحثون آخرون معايير لقياس أداء النماذج اللغوية الكبيرة في التدريس، لكن هذه المعايير تركز على جوانب محددة من أداء هذه النماذج، ما يجعل من الصعب معرفة مدى تقدّمها هذه الأنظمة أو تطورها.

لذلك سعت كوشمار وموريا وزملاؤهما إلى إنشاء نظام تقييم شامل يمكن استخدامه لقياس وتتبع الأداء التعليمي للنماذج اللغوية الكبيرة. ويعدّ هذا أول نظام موحد قائم على مبادئ علوم التعلّم، وهو يركز على ثمانية معايير أساسية حددتها بحوث سابقة ذات علاقة بالتعلّم في حالات تصحيح الأخطاء، وهي: تحديد الخطأ، وتحديد موقع الخطأ، والكشف عن الإجابة، وتقديم الإرشاد، وقابلية التطبيق، والترابط المنطقي، والنبرة، ومدى تشابه الأسلوب مع أسلوب البشر.

على سبيل المثال، المدرس الجيد لا يعطي الطالب الإجابة الصحيحة مباشرة عندما يخطئ، لأن الطالب في هذه الحالة لن يتعلّم الكثير. المدرس الجيد يوجه الطالب ويقوده إلى اكتشاف الحل بنفسه. ولكن الأنظمة الحالية لا تؤدي هذه المهمة كما ينبغي، حيث أظهرت دراسة سابقة أن النموذج “GPT-3” من شركة “أوبن أيه آي” يكشف مباشرةً عن حلول الأسئلة في 66% من الحالات، ويقدم ملاحظات غير صحيحة في 59% من الحالات.

معيار شامل جديد

لتقييم أداء النماذج اللغوية الكبيرة المختلفة وفق المعايير الثمانية المذكورة، أنشأ الباحثون إطاراً مرجعياً جديداً أطلقوا عليه اسم “MRBench”، وهو يتضمن 192 حواراً تعليمياً يركز على أخطاء الطلاب في الرياضيات.

استُخلصت هذه الحوارات من مجموعتي بيانات سابقتين هما “Bridge” و”MathDial”. تتألف المجموعة “Bridge” من حوارات بين متعلمين ومدرسين مبتدئين وخبراء. أما “MathDial”، فتتكون من حوارات بين مدرسين بشريين ونماذج لغوية كبيرة تؤدي دور المتعلم. وينتهي كل حوار بإجابة خاطئة أو حالة من التشوش لدى المتعلم.

طلب الباحثون من سبعة نماذج لغوية كبيرة تتراوح من نماذج خفيفة مثل “LLaMA-3.1-8B” إلى أنظمة متطورة مثل “GPT-4” أن تؤدي دور المدرس الخبير وتقدم إجابة مناسبة لآخر جملة في كل حوار. وتضمنت مجموعة البيانات أيضاً إجابات من مدرسين بشريين مبتدئين وخبراء.

بعد الحصول على إجابات النماذج، طُلب من مختصين مدربين تقييمها وفقاً للمعايير الثمانية التي حددها الباحثون. وقد تعامل المقيّمون مع كل معيار بشكل مستقل عن الآخر. على سبيل المثال، كان تقييمهم لفعالية المدرس في تحديد الخطأ الذي وقع فيه الطالب منفصلاً عن تقييمهم لمدى نجاح المدرس في تقديم إرشادات مفيدة. هذه المنهجية جعلت “MRBench” أكثر من مجرد مجموعة من الحوارات التعليمية، حيث أصبحت معياراً مرجعياً مدروساً يتيح تتبع ومقارنة القدرات التعليمية للنماذج اللغوية الكبيرة مع مرور الوقت.

وإلى جانب المقيّمين البشريين، استعان الباحثون بنموذجين لغويين كبيرين هما “Prometheus2″ و”LLaMA-3.1-8B” لإجراء تقييم إضافي للإجابات.

أداء النماذج اللغوية الكبيرة في التدريس

خلصت الدراسة بشكل عام إلى أنه بينما قدمت بعض النماذج اللغوية الكبيرة إجابات بدت مقنعة، بل وتشبه أسلوب البشر إلى حدٍ ما، فقد أظهر تقييمها وفق معايير تربوية أنها دون المستوى المطلوب. ويقول كي في أديتيا سريفاتسا، الباحث المساعد في جامعة محمد بن زايد للذكاء الاصطناعي والمشارك في إعداد الدراسة: “عندما كنا نقيّم الإجابات، لم نكن نعرف ما إذا كانت الإجابة من نموذج لغوي أم من مدرس بشري، وفي بعض الحالات لم أتمكن من التمييز بينهما. لكن ما زالت هناك جوانب عديدة تحتاج إلى التحسين”.

كان أداء النماذج اللغوية الكبيرة الأكثر تقدماً مثل “GPT-4” من شركة “أوبن أيه آي” و “LLaMA-3.1-405B” من شركة “ميتا” جيداً بشكل عام في تحديد الأخطاء التي يرتكبها الطلاب، وتحديد موقع هذه الأخطاء. لكن هذه النماذج كشفت في حالات كثيرة عن الإجابة الصحيحة مباشرة بدلاً من إرشاد الطالب لاكتشاف الحل بنفسه، وهو ما أكدته دراسات سابقة.

وقدم النموذج “Sonnet” من شركة “أنثروبيك” إجابات مترابطة ومشجعة، لكنه لم يكن متسقاً في تقديم الإرشادات التعليمية بشكل واضح. أما النماذج الأصغر حجماً مثل “LLaMA-3.1-8B”، فكان أداؤها جيداً مقارنة بحجمها. لكن نموذجاً صغيراً آخر هو “Phi3″، الذي طورته شركة “مايكروسوفت”، سجل أداءً ضعيفاً في معظم المعايير ولم يستطع تقديم إرشادات مفيدة في أغلب الحالات.

حقق المدرسون البشريون الخبراء أفضل أداء في تقديم إرشادات عملية ومفيدة، بينما واجه المدرسون البشريون المبتدئون صعوبات في العديد من النواحي.

أظهر تقييم أداء المدرسين البشريين الخبراء والمبتدئين وسبعة نماذج لغوية كبيرة وفقاً لثمانية معايير تربوية أن معظم النماذج اللغوية الكبيرة تواجه صعوبات في الجوانب الأساسية من التدريس المتعلقة بالمسائل الرياضية. وحُسبت النتائج باستخدام مقياس يُسمى “معدل مطابقة التقييم المرغوب”، وهو يحدد النسبة المئوية لإجابات كل مدرس (سواء كان بشرياً أو نموذجاً لغوياً) التي حصلت على التقييم المرغوب وفقاً للمعايير المحددة.

تقول كوشمار: “هذه النتائج ليست مجرد أرقام، بل لها قيمة كبيرة لأنها توضح لنا نقاط القوة والضعف في النماذج المختلفة”.

عندما قارن الفريق بين تقييمات المُقيّمين البشريين وتقييمات النماذج اللغوية الكبيرة، وجد أن تقييمات النماذج اللغوية الكبيرة لا يمكن الاعتماد عليها غالباً. وهذا يشير إلى أن التقييم البشري ما زال ضرورياً في الوقت الحالي لتقييم قدرات التدريس لدى النماذج اللغوية الكبيرة.

تعليم الذكاء الاصطناعي كيفية التدريس بشكل أفضل

يشكل إنشاء المعيار “MRBench” مجرّد بداية لعمل الفريق ضمن هذا المشروع المهم، الذي حصل مؤخراً على دعم من شركة جوجل عبر جائزتها للأبحاث الأكاديمية. وفي الخطوة التالية، يخطط الفريق لتعديل النماذج اللغوية الكبيرة بحيث تقدم إجابات سلسة ومتوافقة مع المعايير التربوية الثمانية المستمدة من علم التعلّم.

لتحقيق ذلك، يشير موريا إلى أن البيانات المستخدمة لتدريب النماذج يمكن أن تكون أكثر غنى بالمحتوى التربوي. كما أن إجراء تعديلات دقيقة على الأنظمة باستخدام بيانات تعليمية عالية الجودة من شأنه أن يساهم في تحسين النتائج.

وتأمل كسينيا بيتوخوفا، طالبة الماجستير في معالجة اللغات الطبيعية بجامعة محمد بن زايد للذكاء الاصطناعي والمشاركة في إعداد الدراسة، أن تُدمَج في المستقبل معايير إضافية تتعلق بالتخصيص، بحيث تقدم الأنظمة إجابات وإرشادات تتناسب مع الاحتياجات الفردية لكل متعلم.

وقد حظي المعيار “MRBench” باهتمام باحثين آخرين في مجال الذكاء الاصطناعي. على سبيل المثال، جذبت المسابقة البحثية “Shared Task” التي نظمها باحثو جامعة محمد بن زايد للذكاء الاصطناعي بالاعتماد على هذه البيانات أكثر من 50 فريقاً بحثياً من مختلف أنحاء العالم. كما تعمل فرق بحثية من جامعات أخرى على توسيع مجموعة البيانات وتطبيق إطار العمل التربوي على مهام تعليمية أخرى تتجاوز تصحيح الأخطاء في المسائل الرياضية.

ورغم أن النماذج اللغوية الكبيرة ما زالت غير قادرة على أن تحل محل المدرّسين البشريين حتى الآن، إلا أن هذه الأبحاث تقرّبنا أكثر من حل “مسألة 2 سيغما” التي طرحها بلوم، ومن مستقبل يحظى فيه كل طالب بإمكانية تلقي دروس خصوصية بجودة عالية.

أخبار ذات صلة

thumbnail
Thursday, March 20, 2025

معيار جديد لاختبار قدرة النماذج اللغوية الكبيرة على الاستدلال

لطالما كانت القدرة على استخدام اللغة ميزة ينفرد بها البشر وحدهم، إلى أن ظهرت النماذج اللغوية الكبيرة.....

  1. النماذج اللغوية الكبيرة ,
  2. الأبحاث ,
  3. مجموعة البيانات ,
  4. الذكاء ,
  5. المنطق ,
  6. التفكير ,
  7. معيار ,
اقرأ المزيد