شهد مجال الذكاء الاصطناعي خلال العام الماضي نقاشاً متزايداً حول دور التعلّم التعزيزي في تطوير نماذج الاستدلال، أي النماذج اللغوية القادرة على حل المسائل المعقدة. وتقوم الفكرة الأساسية على مبدأ بسيط، وهو الانطلاق من نموذج لغوي مُدرَّب مسبقاً، ثم استخدام التعلّم التعزيزي لتعليمه كيفية التفكير خطوة بخطوة في المسائل الصعبة حتى الوصول إلى الإجابة الصحيحة، أي باختصار تعليمه كيفية الاستدلال.
ولكن بعض التحليلات الحديثة شككت في هذا النهج، معتبرة أن التعلّم التعزيزي لا يطوّر فعلياً قدرة النموذج على الاستدلال، بل يجعله أكثر كفاءة في استدعاء المعرفة التي اكتسبها خلال مرحلة التدريب المسبق. وينطلق هذا الطرح من أن التعلّم التعزيزي لا يعلّم الاستدلال بحد ذاته، وإنما يعيد تنظيم ما يعرفه النموذج سلفاً.
إلا أن دراسة أجراها باحثون في معهد النماذج التأسيسية بجامعة محمد بن زايد للذكاء الاصطناعي تقدم تحليلاً أدق. حيث تُظهر النتائج التي خلص إليها الفريق البحثي أن ما يُطلق عليه عادة اسم “الاستدلال” في الذكاء الاصطناعي ليس قدرة واحدة عامة قابلة للنقل، بل مجموعة من المهارات الخاصة بكل مجال على حدة، وأن استفادة النماذج من التعلّم التعزيزي تختلف من مجال لآخر.
ففي المجالات الحاضرة بكثافة في بيانات التدريب المسبق، مثل الرياضيات والبرمجة، تحقق النماذج تحسناً من خلال التعلّم التعزيزي الشامل لعدة مجالات، بحيث يؤدي التدريب على مسائل رياضية مثلاً إلى تحسين الأداء في البرمجة. وعلى النقيض من ذلك، في المجالات التي يكون تمثيلها ضعيفاً في بيانات التدريب المسبق، مثل المنطق والمحاكاة، لا يتحسن أداء النماذج إلا عندما تُدرَّب على تلك المجالات تحديداً. وهذا يشير إلى أن التعلّم التعزيزي يحفّز استدعاء المعرفة في المجالات الحاضرة بقوة في بيانات التدريب المسبق، بينما يعلّم النماذج مهارات استدلال جديدة في المجالات الأقل تمثيلاً في تلك البيانات.
ويؤكد تشو جون تشنغ، الباحث المتدرب في معهد النماذج التأسيسية وطالب الدكتوراه في جامعة كاليفورنيا في سان دييغو وأحد المشاركين الرئيسيين في إعداد الدراسة، أن هذا العمل يمكن أن يسهم في توجيه تطوير نماذج تمتلك قدرات استدلال عامة تشمل مجالات معرفية متعددة.
شارك في إعداد الدراسة، إلى جانب تشنغ، كل من شيبو هاو، وتيانيانغ ليو، وفان تشو، ويوتاو شي، وفنغ ياو، ويويشين بيان، ويونغهاو تشوانغ، ونيلابجو دي، ويوهينغ تشا، ويي غو، وكون تشو، ويوكي وانغ، ويوان لي، وريتشارد فان، وجيانشو شي، وتشنغكيان جاو، وأبولهير ساباروف، وهاونان لي، وتايلور كيليان، وميخائيل يوروتشكين، وتشنغتشونغ ليو، وإريك زينغ، وجيتينغ هو. ومن المقرر أن يعرض الفريق النتائج التي خلص إليها في الدورة التاسعة والثلاثين للمؤتمر السنوي لنظم معالجة المعلومات العصبية الذي تستضيفه مدينة سان دييغو بولاية كاليفورنيا الأمريكية.
لإجراء هذا التحليل، أنشأ الباحثون مجموعة بيانات أطلقوا عليها اسم “GURU” وتضم 92 ألف مثال موزع على ستة مجالات هي الرياضيات والبرمجة والعلوم والمنطق والمحاكاة والاستدلال الجدولي.
عند اختبار قدرات الاستدلال، تركز الأبحاث عادة على الرياضيات والبرمجة بسبب سهولة التحقق من الإجابات في هذين المجالين (بمعنى إمكانية التأكد مما إذا كان حل مسألة رياضية صحيحاً، أو ما إذا كان البرنامج الذي يولده النموذج ينجح في الاختبار). ولكن مجموعة البيانات “GURU” توسّع هذا النهج ليشمل نطاقاً أوسع بكثير من مهام الاستدلال، بحيث يُزوَّد كل مجال بدوال مكافأة خاصة به تتيح التحقق الآلي من الإجابات.
يقول شيبو هاو، الباحث المتدرب في معهد النماذج التأسيسية وطالب الدكتوراه في جامعة كاليفورنيا في سان دييغو وأحد المشاركين الرئيسيين في إعداد الدراسة: “بشكل عام، اكتفى الباحثون باستخدام مجموعات بيانات الرياضيات أو البرمجة لأنها متاحة، لكن توفير بيانات تغطي مجالات متعددة يتيح لنا استخلاص رؤى أعمق وأشمل”.
ويشير هاو إلى أن الفريق واجه تحديات كبيرة أثناء بناء مجموعة البيانات “GURU”، من بينها جمع البيانات من مصادر مختلفة، وإزالة العناصر المكررة، وتصميم دوال مكافأة خاصة بكل مجال. كما كان عليهم استبعاد الأسئلة التي كانت إما سهلة جداً أو صعبة جداً. والنتيجة هي مجموعة بيانات تتيح للمرة الأولى إجراء أبحاث منهجية حول الاستدلال في مجالات متعددة.
باستخدام مجموعة البيانات “GURU”، درّب الفريق نموذجين (يقومان على النموذجين “Qwen2.5-7B” و”Qwen2.5-32B”) على مجالات فردية، وكذلك على مزيج من عدة مجالات، بهدف رصد كيفية انتقال قدرات الاستدلال بينها. وبدأ الباحثون بتجارب استخدموا فيها ثلاثة آلاف عينة من كل مجال، حيث جرى تدريب النماذج على كل مجال على حدة، ثم على المجالات الستة مجتمعة. ثم اختُبرت النماذج على مجموعة فرعية من الأسئلة، وقيس أداؤها. وكشفت النتائج عن تباينات واضحة في تأثير التعلّم التعزيزي على الأداء في المجالات المختلفة.
فعندما درّب الباحثون النماذج على مسائل الرياضيات، تحسّن الأداء ليس في الرياضيات فقط، بل أيضاً في البرمجة والعلوم. وبالمثل، أدى التدريب على البرمجة إلى تحسّن الأداء في الرياضيات والعلوم، وكذلك الحال عند التدريب على العلوم. وقد شكّلت هذه المجالات الثلاثة مجموعة مترابطة من المهارات التي تعزّز بعضها بعضاً. ويرجع السبب في ذلك إلى طبيعة بيانات التدريب المسبق، حيث تظهر الرياضيات والبرمجة والعلوم بكثرة فيها. ويبدو أن التعلّم التعزيزي في هذه المجالات لا يعلّم النماذج مهارات جديدة بقدر ما ينقّح المعرفة الموجودة مسبقاً وينظمها.
أما في المجالات الثلاثة الأخرى، فقد ظهرت أنماط مختلفة، حيث وجد الباحثون أن التدريب على ألغاز المنطق لم يؤدِّ إلى تحسّن في أداء الاستدلال الجدولي. كما أن التدريب على مهام المحاكاة لم يساعد في تحسين الأداء في مجال المنطق. ولم تُظهر النماذج تحسناً في هذه المجالات إلا عندما استُخدِمت في التعلّم التعزيزي بيانات خاصة لكل مجال على حدة، ما أكسبها قدرات جديدة خاصة بذلك المجال.
يقول تشنغ في سياق تعليقه على هذه النتائج: “نُظهر في دراستنا أنه عندما نُجري تدريباً باستخدام التعلّم التعزيزي على مسائل الرياضيات، لا نلاحظ تحسناً في الاستدلال في مجال المنطق. ونفترض أن السبب في ذلك هو أن الرياضيات ممثلة بكثافة في بيانات التدريب المسبق، بينما يحتاج المنطق إلى تعلّم تعزيزي من بيانات خاصة لذلك المجال”.

يُظهر الشكل تحسن الأداء (من حيث الدقة) نتيجة للتدريب باستخدام التعلّم التعزيزي على مجالات مختلفة (الصفوف) عند تقييم النماذج على مجموعات اختبار تعود إلى مجالات أخرى (الأعمدة). ويشير اللون البرتقالي بدرجاته المختلفة إلى تحسن أعلى في الأداء. وقد جرى حساب التحسن من خلال تطبيع الحدين الأدنى والأعلى ضمن كل عمود. وسُجّلت الدقة باستخدام أعلى متوسط درجات بين جميع المهام. وتمثل المستطيلات المحاطة بحدود داكنة التقييمات ضمن المجال نفسه (على القطر)، بينما تعكس المستطيلات الأخرى قدرة التعميم في المجالات المختلفة.
بصورة عامة، خلص الباحثون إلى أن النموذجين اللذين طوّرهما الفريق (وهما “GURU-7B” و”GURU-32B”) حققا أفضل أداء مُسجَّل حتى الآن بين النماذج المفتوحة المدرَّبة باستخدام التعلّم التعزيزي، وتفوقا على أفضل النماذج المعيارية بنسبة 7.9% و6.7% على التوالي في جميع المجالات.
وواصل الباحثون تحليلاتهم من خلال التحكم في مستوى صعوبة بيانات التدريب. فعندما اقتصر التدريب على مسائل رياضية صعبة فقط، تحسن أداء النماذج ضمن المجال نفسه، وهو أمر متوقع. ولكن الأداء تراجع في المهام الأسهل ضمن مجالات أخرى. وهذا يشير إلى أن قدرات الاستدلال التي يجري تعلمها (أو استحضارها) ترتبط ارتباطاً وثيقاً بدرجة الصعوبة وبنية المجال الذي جرى التدريب عليه. أما الدلالة العملية لذلك فهي أن تدريب النموذج حصرياً على مسائل رياضية من المستوى المُستخدم في المسابقات قد يجعله يتفوّق في هذا النوع من المسائل المعقدة، لكنه قد يواجه صعوبة في التعامل مع مسائل بسيطة في مجالات أخرى.
كما تناول الفريق سؤالاً أكثر جوهرية، وهو ما إذا كان التعلّم التعزيزي يعلّم النماذج حل مسائل جديدة فعلاً، أم أنه يساعدها فقط على الوصول بشكل أكثر موثوقية إلى حلول كانت قادرة عليها من قبل. لاستكشاف ذلك، أجرى الباحثون تجارب تُعرف باسم “Pass@k”، وهي تقيس ما إذا كانت الإجابة الصحيحة تظهر ضمن عدد من المحاولات المتعددة. فقد أشارت دراسات حديثة سابقة إلى أن التعلّم التعزيزي لا يوسّع نطاق المسائل التي يمكن للنماذج حلها، بل يحسن قدرتها على توليد الإجابة الصحيحة التي يمكنها الوصول إليها من خلال عدد كافٍ من المحاولات. ولكن نتائج هذه الدراسة تُظهر مرة أخرى أن الواقع أكثر تعقيداً من ذلك.
ففي مهمة ألغاز المنطق، وهي مجال لا يرد كثيراً في بيانات التدريب المسبق، تبيّن أن النموذج “GURU” وسّع حدود الاستدلال مقارنة بالنماذج الأساسية. كما كان لحجم النموذج دور مؤثر، حيث وصل أداء النموذج ”GURU-7B” إلى حالة ثبات عند ضبط عدد المحاولات المسموحة على 32 محاولة، بينما استمر أداء النموذج ”GURU-32B” في التحسن ضمن كامل النطاق عند ضبط عدد المحاولات المسموحة على 256 محاولة. وهذا يشير، بحسب الباحثين، إلى أن النماذج الأساسية الأقوى قد تكون أقدر على اكتشاف مسارات استدلال جديدة من خلال التعلّم التعزيزي.
يؤكد تايلور كيليان، الباحث العلمي الأول في معهد النماذج التأسيسية وأحد المشاركين في إعداد الدراسة، أن هذه أول مرة تُدرَس فيها الفروق في الأداء نتيجة التعلّم التعزيزي في مجالات الاستدلال المختلفة، مضيفاً: “أردنا أن نفتح نقاشاً حول ضرورة توخي الحذر، بصفتنا مجتمعاً بحثياً، فيما نُدخله إلى هذه النماذج وكيف نحلل مخرجاتها”.
ومع ذلك، لا تقتصر أهمية مجموعة البيانات “GURU” على كونها تمريناً بحثياً فحسب. فقد استُخدمت هذه المجموعة في تطوير نموذج الاستدلال “K2 Think” الذي أطلقه معهد النماذج التأسيسية في وقت سابق من هذا الخريف.
ويختم كيليان كلامه قائلاً: “نستخدم هذه البيانات لبناء نماذج تمتلك قدرات استدلالية أكبر في كل مرة. والمجموعة “GURU” تمثل نقطة الانطلاق في هذا المسار وأسهمت في إرساء أساس قدراتنا من منظور التعلّم التعزيزي”.
باحثون يطورون مجموعة بيانات معيارية جديدة تكشف أسرار العلاقات السببية في نماذج الذكاء الاصطناعي
مينمينغ غونغ يكشف كيف يعتمد نظام ConV المبتكر على نهج جديد لتحديد الصور المولّدة بالذكاء الاصطناعي، متخطياً.....
اقرأ المزيددراسة بحثية جديدة تكشف حدود نظم الذكاء الاصطناعي المساعد في حل اختبارات التحقق "CAPTCHA" وتقترح إطاراً لتقييم.....