الصفحة الرئيسية / الأخبار / ابتكار جديد يعيد صياغة معادلة تدريب النماذج اللغوية بكفاءة عالية

ابتكار جديد يعيد صياغة معادلة تدريب النماذج اللغوية بكفاءة عالية

الثلاثاء، 28 أبريل 2026

مع التسارع الكبير في طرق تطوير النماذج اللغوية مفتوحة المصدر، لم يعد بناء نموذج ذكاء اصطناعي من الصفر خياراً ضرورياً لمعظم الشركات والمطورين. فاليوم، بات بالإمكان الاعتماد على نماذج جاهزة عالية الكفاءة يُعاد تكييفها لتُنَاسِبَ مهام محددة عبر ما يُعرف بعمليات “الضبط الدقيق”؛ غير أن هذه العملية – رغم فاعليتها – ما تزال تطرح تحدياً تقنياً ومالياً كبيراً، خصوصاً مع النماذج الضخمة التي تضم عشرات المليارات من المُعَامِلات الحسابية.

لقد ولَّدَت هذه الإشكالية سؤالاً جوهرياً ألا وهو: كيف يمكن الاستفادة من قدرات النماذج الضخمة وتخصيصها لمهام جديدة دون تحمّل الكلفة الهائلة المرتبطة بإعادة تدريبها بالكامل؟ هذا السؤال أفرز اتجاهين رئيسيين في مجال “الضبط الدقيق” لهذه النماذج وهما:

الاتجاه الأول – التقليدي – يعتمد على “الضبط الكامل”، حيث يتم تحديث جميع قيم النموذج العددية [أوزانه] اعتماداً على بيانات المهمة الجديدة. ورغم أن هذه المقاربة تحقق نتائج قوية، إلا أن تكلفتها الحاسوبية واستهلاكها للطاقة يجعلانها غير عملية في كثير من السيناريوهات، لا سيما لدى المؤسسات التي تفتقر إلى بنية تحتية ضخمة للحوسبة.
الاتجاه الثاني – برز خلال السنوات الأخيرة – وهو اتجاه يعتمد تقنية تُعرف باسم “التكييف منخفض الرتبة*” أو LoRA، باعتبارها حلاً أكثر كفاءة من حيث الموارد. وتعتمد هذه التقنية على تجميد النموذج الأصلي، ثم إضافة مجموعة صغيرة من المصفوفات القابلة للتدريب بهدف محاكاة التعديلات التي كان سيجريها “الضبط الكامل”، لكن بكلفة أقل بكثير. ولهذا السبب، أصبحت LoRA واحدة من أكثر تقنيات “الضبط الدقيق” استخداماً في بيئات الذكاء الاصطناعي الحديثة.

لكن مشكلة جوهرية ظلت قائمة، حيث إن أداء LoRA لا يصل بالكامل إلى مستوى “الضبط الكامل”، خصوصاً عند استخدام “رتب منخفضة” تقل فيها المُعَامِلات القابلة للتدريب – صحيح أن رفع الرتبة يحسن الأداء، لكنه يعيد رفع الكلفة الحاسوبية، ما يحدّ من جدواه العملية.

في هذا السياق، قدّم باحثون من جامعة محمد بن زايد للذكاء الاصطناعي بالتعاون مع Amazon Science UK منهجية جديدة تحمل اسم “LoFT”، اختصاراً لعبارة “التكيّف منخفض الرتبة الذي يحاكي الضبط الكامل – ومن المقرر عرض نتائج الدراسة خلال فعاليات “المؤتمر الدولي الرابع عشر لتعلم التمثيلات” (ICLR) في مدينة ريو دي جانيرو البرازيلية.

ما الذي كان ينقص تقنية “LoRA“؟

ركزت معظم المحاولات السابقة لتحسين أداء “LoRA” على معالجة ما يُعرف بـ “تقريب التدرج”، أي معالجة فقدان بعض المعلومات الناتج عن العمل داخل فضاء مضغوط منخفض الأبعاد أثناء حساب التدرجات المسؤولة عن تحديث القيم العددية [الأوزان].

غير أن نوربيك تاستان – الباحث في السنة الثالثة من الدكتوراه في تعلم الآلة بجامعة محمد بن زايد للذكاء الاصطناعي والمؤلف الرئيسي للدراسة – إلى جانب كل من ستيفانوس لاسكاريديس، والبروفيسور مارتن تاكاش، والبروفيسور كارثيك نانداكومار، والبروفيسور صامويل هورفاث رأوا أن المشكلة أعمق من مجرد مسألة تدرجات.

وينطلق الاكتشاف الجديد من فهم أعمق لكيفية عمل “المُحَسِّن” الحسابي المسؤول عن تحديث القيم العددية [الأوزان] أثناء التدريب، مثل خوارزمية “AdamW” المستخدمة على نطاق واسع في عمليات الضبط الدقيق، حيث تحتفظ هذه الخوارزمية بإحصاءات تراكمية للتدرجات السابقة، ما يساعد على ثبات عملية التعلم وتسريعها عبر ما يُعرف بـ “العزوم الأولى والثانية”**.

وقد أظهر الباحثون أن البنية المضغوطة التي تعتمدها “LoRA” تؤدي إلى اختلال بين هذه الإحصاءات الداخلية وما كان سيحسبه الضبط الكامل للنموذج – ويقول تاستان إن الدراسات السابقة لم تتعامل مع هذه الفجوة بصورة مباشرة، موضحاً أن “الأعمال السابقة ركزت على تحجيم التدرجات، أما نحن فذهبنا خطوة أبعد عبر معايرة العزوم نفسها”.

“LoFT“.. محاكاة دقيقة للضبط الكامل

نتيجة لهذا التوجه جاء تطوير تقنية “LoFT”، وهي منظومة تتكوّن من خمسة عناصر رئيسة تشمل: تحجيم التدرجات، والتحديثات المتناوبة، ومعايرة حالات المُحَسِّن، وبناء تحديثات مستوحاة من الضبط الكامل ثم إسقاطها على فضاء منخفض الرتبة، إضافة إلى آلية قصّ تراعي خصائص الضبط الكامل.

ولا تقتصر أهمية “LoFT” على تحسين التعامل مع التدرجات فحسب، بل تقدم أيضاً مصفوفات معايرة تعمل على تصحيح تقديرات العزوم الأولى والثانية مع تطور عملية التدريب، بما يبقي ديناميكيات المُحَسِّن قريبة من السلوك المتوقع في عملية الضبط الكامل.

وأوضح الباحثون أن التقنية الجديدة قادرة، عند استخدام رتب مرتفعة بما يكفي، على محاكاة سلوك خوارزمية “AdamW” كما لو كان النموذج يخضع لعملية ضبط كامل، وهو إنجاز يقول الفريق إنه لم يتحقق سابقاً في هذا المجال.

كما تعالج تقنية “LoFT” إحدى المشكلات العملية الشائعة في “LoRA”، والمتعلقة بضبط معامل “ألفا” الذي يتطلب عادة تجارب تدريب متعددة للوصول إلى القيمة المناسبة، إذ قد يؤدي اختيار قيمة غير دقيقة إلى اضطراب التدريب أو تراجع الأداء؛ أما التصميم الجديد فيلغي الحاجة إلى هذه الخطوة بالكامل، ما يعزز الكفاءة التشغيلية ويختصر الوقت والموارد.

أداء أعلى بمُعَامِلات أقل

وقد أظهرت التجارب العملية نتائج لافتة، لا سيما في البيئات منخفضة الرتبة؛ ففي اختبارات الاستدلال المنطقي باستخدام نموذج “LLaMA 7B”، تفوقت “LoFT” عند الرتبة 4 على أداء “LoRA” المعياري عند الرتبة 16، رغم استخدام عدد أقل بكثير من المُعَامِلات القابلة للتدريب. كما سجلت التقنية الجديدة أداءً أفضل مقارنة بكل من “LoRA” و”DoRA”، وهي إحدى تقنيات الضبط الأخرى، عبر مختلف الأحجام والإعدادات.

ولم تتوقف التجارب عند النماذج الصغيرة والمتوسطة، إذ دفع مراجعو مؤتمر (ICLR) الفريق إلى اختبار التقنية على نموذج ضخم بحجم “LLaMA 70B”، وهو أمر نادر في أبحاث التكيّيف منخفض الرتبة. ووفق تاستان، فإن هذه التجربة تُعد الأولى من نوعها في الأدبيات العلمية المتخصصة، مؤكداً أن تقنية “LoFT” حافظت على تفوقها حتى عند استخدام رتبة واحدة فقط.

نحو تطبيقات أوسع في التعلم الموحد

يتطلع الباحثون حالياً إلى توسيع استخدام تقنية “LoFT” ضمن بيئات “التعلم الموحد”، التي تعتمد على تدريب النماذج عبر أجهزة متعددة مع قيود حاسوبية أكبر من تلك الموجودة في بيئات الضبط التقليدية.

ويرى الفريق أن القدرة على تدريب النماذج باستخدام رتب منخفضة جداً ستصبح عاملاً حاسماً في مستقبل تطبيقات الذكاء الاصطناعي، خصوصاً مع تنامي الحاجة إلى حلول أكثر كفاءة وأقل استهلاكاً للموارد، دون التضحية بمستوى الأداء والدقة.

* المقصود بالرتبة هو عدد الأبعاد المستخدمة لتمثيل المُعَامِلات القابلة للتدريب

** العزوم هي إحصاءات يستخدمها المُحَسِّن لتقدير اتجاه وسرعة التعلّم أثناء التدريب