مع التسارع الكبير في طرق تطوير النماذج اللغوية مفتوحة المصدر، لم يعد بناء نموذج ذكاء اصطناعي من الصفر خياراً ضرورياً لمعظم الشركات والمطورين. فاليوم، بات بالإمكان الاعتماد على نماذج جاهزة عالية الكفاءة يُعاد تكييفها لتُنَاسِبَ مهام محددة عبر ما يُعرف بعمليات “الضبط الدقيق”؛ غير أن هذه العملية – رغم فاعليتها – ما تزال تطرح تحدياً تقنياً ومالياً كبيراً، خصوصاً مع النماذج الضخمة التي تضم عشرات المليارات من المُعَامِلات الحسابية.
لقد ولَّدَت هذه الإشكالية سؤالاً جوهرياً ألا وهو: كيف يمكن الاستفادة من قدرات النماذج الضخمة وتخصيصها لمهام جديدة دون تحمّل الكلفة الهائلة المرتبطة بإعادة تدريبها بالكامل؟ هذا السؤال أفرز اتجاهين رئيسيين في مجال “الضبط الدقيق” لهذه النماذج وهما:
لكن مشكلة جوهرية ظلت قائمة، حيث إن أداء LoRA لا يصل بالكامل إلى مستوى “الضبط الكامل”، خصوصاً عند استخدام “رتب منخفضة” تقل فيها المُعَامِلات القابلة للتدريب – صحيح أن رفع الرتبة يحسن الأداء، لكنه يعيد رفع الكلفة الحاسوبية، ما يحدّ من جدواه العملية.
في هذا السياق، قدّم باحثون من جامعة محمد بن زايد للذكاء الاصطناعي بالتعاون مع Amazon Science UK منهجية جديدة تحمل اسم “LoFT”، اختصاراً لعبارة “التكيّف منخفض الرتبة الذي يحاكي الضبط الكامل – ومن المقرر عرض نتائج الدراسة خلال فعاليات “المؤتمر الدولي الرابع عشر لتعلم التمثيلات” (ICLR) في مدينة ريو دي جانيرو البرازيلية.
ركزت معظم المحاولات السابقة لتحسين أداء “LoRA” على معالجة ما يُعرف بـ “تقريب التدرج”، أي معالجة فقدان بعض المعلومات الناتج عن العمل داخل فضاء مضغوط منخفض الأبعاد أثناء حساب التدرجات المسؤولة عن تحديث القيم العددية [الأوزان].
غير أن نوربيك تاستان – الباحث في السنة الثالثة من الدكتوراه في تعلم الآلة بجامعة محمد بن زايد للذكاء الاصطناعي والمؤلف الرئيسي للدراسة – إلى جانب كل من ستيفانوس لاسكاريديس، والبروفيسور مارتن تاكاش، والبروفيسور كارثيك نانداكومار، والبروفيسور صامويل هورفاث رأوا أن المشكلة أعمق من مجرد مسألة تدرجات.
وينطلق الاكتشاف الجديد من فهم أعمق لكيفية عمل “المُحَسِّن” الحسابي المسؤول عن تحديث القيم العددية [الأوزان] أثناء التدريب، مثل خوارزمية “AdamW” المستخدمة على نطاق واسع في عمليات الضبط الدقيق، حيث تحتفظ هذه الخوارزمية بإحصاءات تراكمية للتدرجات السابقة، ما يساعد على ثبات عملية التعلم وتسريعها عبر ما يُعرف بـ “العزوم الأولى والثانية”**.
وقد أظهر الباحثون أن البنية المضغوطة التي تعتمدها “LoRA” تؤدي إلى اختلال بين هذه الإحصاءات الداخلية وما كان سيحسبه الضبط الكامل للنموذج – ويقول تاستان إن الدراسات السابقة لم تتعامل مع هذه الفجوة بصورة مباشرة، موضحاً أن “الأعمال السابقة ركزت على تحجيم التدرجات، أما نحن فذهبنا خطوة أبعد عبر معايرة العزوم نفسها”.
نتيجة لهذا التوجه جاء تطوير تقنية “LoFT”، وهي منظومة تتكوّن من خمسة عناصر رئيسة تشمل: تحجيم التدرجات، والتحديثات المتناوبة، ومعايرة حالات المُحَسِّن، وبناء تحديثات مستوحاة من الضبط الكامل ثم إسقاطها على فضاء منخفض الرتبة، إضافة إلى آلية قصّ تراعي خصائص الضبط الكامل.
ولا تقتصر أهمية “LoFT” على تحسين التعامل مع التدرجات فحسب، بل تقدم أيضاً مصفوفات معايرة تعمل على تصحيح تقديرات العزوم الأولى والثانية مع تطور عملية التدريب، بما يبقي ديناميكيات المُحَسِّن قريبة من السلوك المتوقع في عملية الضبط الكامل.
وأوضح الباحثون أن التقنية الجديدة قادرة، عند استخدام رتب مرتفعة بما يكفي، على محاكاة سلوك خوارزمية “AdamW” كما لو كان النموذج يخضع لعملية ضبط كامل، وهو إنجاز يقول الفريق إنه لم يتحقق سابقاً في هذا المجال.
كما تعالج تقنية “LoFT” إحدى المشكلات العملية الشائعة في “LoRA”، والمتعلقة بضبط معامل “ألفا” الذي يتطلب عادة تجارب تدريب متعددة للوصول إلى القيمة المناسبة، إذ قد يؤدي اختيار قيمة غير دقيقة إلى اضطراب التدريب أو تراجع الأداء؛ أما التصميم الجديد فيلغي الحاجة إلى هذه الخطوة بالكامل، ما يعزز الكفاءة التشغيلية ويختصر الوقت والموارد.
وقد أظهرت التجارب العملية نتائج لافتة، لا سيما في البيئات منخفضة الرتبة؛ ففي اختبارات الاستدلال المنطقي باستخدام نموذج “LLaMA 7B”، تفوقت “LoFT” عند الرتبة 4 على أداء “LoRA” المعياري عند الرتبة 16، رغم استخدام عدد أقل بكثير من المُعَامِلات القابلة للتدريب. كما سجلت التقنية الجديدة أداءً أفضل مقارنة بكل من “LoRA” و”DoRA”، وهي إحدى تقنيات الضبط الأخرى، عبر مختلف الأحجام والإعدادات.
ولم تتوقف التجارب عند النماذج الصغيرة والمتوسطة، إذ دفع مراجعو مؤتمر (ICLR) الفريق إلى اختبار التقنية على نموذج ضخم بحجم “LLaMA 70B”، وهو أمر نادر في أبحاث التكيّيف منخفض الرتبة. ووفق تاستان، فإن هذه التجربة تُعد الأولى من نوعها في الأدبيات العلمية المتخصصة، مؤكداً أن تقنية “LoFT” حافظت على تفوقها حتى عند استخدام رتبة واحدة فقط.
يتطلع الباحثون حالياً إلى توسيع استخدام تقنية “LoFT” ضمن بيئات “التعلم الموحد”، التي تعتمد على تدريب النماذج عبر أجهزة متعددة مع قيود حاسوبية أكبر من تلك الموجودة في بيئات الضبط التقليدية.
ويرى الفريق أن القدرة على تدريب النماذج باستخدام رتب منخفضة جداً ستصبح عاملاً حاسماً في مستقبل تطبيقات الذكاء الاصطناعي، خصوصاً مع تنامي الحاجة إلى حلول أكثر كفاءة وأقل استهلاكاً للموارد، دون التضحية بمستوى الأداء والدقة.
* المقصود بالرتبة هو عدد الأبعاد المستخدمة لتمثيل المُعَامِلات القابلة للتدريب
** العزوم هي إحصاءات يستخدمها المُحَسِّن لتقدير اتجاه وسرعة التعلّم أثناء التدريب
عبدالله المنصوري يشرح كيف ساعده التخصص في مجال تعلّم الآلة من الإسهام في رسم ملامح أبحاث الذكاء.....
خريجة الماجستير بشاير السريدي تشرح كيف أن رغبتها في أن تفخر الإمارات بها منحتها الدافع الذي احتاجته.....
طوّر باحثون من جامعة محمد بن زايد للذكاء الاصطناعي منهجية DP-Fusion، وهي طريقة تتيح حماية البيانات الحساسة.....