التدريب المسبق على اللهجات يُحسّن دقة أنظمة التعرّف الآلي على الكلام باللغة العربية - MBZUAI MBZUAI

التدريب المسبق على اللهجات يُحسّن دقة أنظمة التعرّف الآلي على الكلام باللغة العربية

الأربعاء، 06 أغسطس 2025

اللغة العربية من أكثر اللغات انتشاراً في العالم، حيث يتجاوز عدد الناطقين بها 400 مليون شخص. وتُستخدم الفصحى الحديثة في وسائل الإعلام والجهات الحكومية والجامعات وغيرها من المؤسسات في أكثر من 20 دولة تعتمد العربية لغة رسمية. لكن اللهجات العربية التي يتحدث بها الناس في حياتهم اليومية تختلف كثيراً عن الفصحى وتتباين بدرجة كبيرة من منطقة إلى أخرى.

وقد طوّر الباحثون أنظمة للتعرّف الآلي على الكلام باللغة العربية، لكن التنوّع الكبير في اللهجات يشكّل تحدياً لهذه الأنظمة. ويضاف إلى ذلك تحدٍ آخر، وهو أن المتحدثين قد يخلطون كلامهم بكلمات من لغات أخرى كالإنجليزية والفرنسية والإسبانية، بحسب مناطقهم، فيما يُعرف بالتناوب اللغوي، مما يُصعب بناء أنظمة التعرّف الآلي على الكلام للغة العربية.

لمعالجة هذه التحديات، عمل باحثون من جامعة محمد بن زايد للذكاء الاصطناعي على تطوير مجموعة من نماذج التعرّف الآلي على الكلام قادرة على التعامل مع العربية الفصحى الحديثة واللهجات العربية، مع وجود التناوب اللغوي. وقد عرض الفريق نتائج أبحاثه خلال الاجتماع السنوي الثالث والستين لجمعية اللغويات الحاسوبية في فيينا.

لماذا يصعب على أنظمة التعرّف الآلي على الكلام التعامل مع اللهجات العربية

يقول أميربك جانيبيكوف، طالب الدكتوراة في معالجة اللغات الطبيعية بجامعة محمد بن زايد للذكاء الاصطناعي وأحد المشاركين في إعداد الدراسة، إن اللهجات العربية ليست مجرد نسخ محلية من اللغة، بل إن بعضها تكاد تكون لغات قائمة بذاتها.

وتشير هاواو أولاميد تويين، طالبة الدكتوراة في معالجة اللغات الطبيعية في الجامعة والمشاركة في إعداد الدراسة، إلى أن اللهجات تُستخدم غالباً في الكلام أكثر من الكتابة. وحتى عندما تُكتب، فلا يوجد لها شكل ثابت، مما يجعل تدريب نماذج الذكاء الاصطناعي أمراً صعباً. وحجم البيانات المتاحة لتدريب النماذج يختلف اختلافاً كبيراً بين لهجة وأخرى. كما يشكل التصنيف الصحيح لهذه البيانات تحدياً آخر، لأن اللهجات تُصنّف عادة حسب المناطق الجغرافية أو الدول، وهو تصنيف تؤكد تويين على عدم دقته دائماً بقولها: “في دولة الإمارات العربية المتحدة نفسها، هناك اختلافات في اللهجة من إمارة إلى أخرى”.

وقد شارك في إعداد الدراسة كل من عبدالله العِطر ورغد الشعلان وحنان الدرمكي.

تحسين أداء النماذج في التعامل مع اللهجات

أظهرت الدراسات السابقة أن تدريب أنظمة التعرّف الآلي على الكلام باستخدام بيانات العربية الفصحى يؤدي إلى تحسن أدائها فيها. لكن جانيبيكوف وتويين وبقية الباحثين كانوا مهتمين بتطوير نموذج قادر على فهم الفصحى واللهجات العربية معاً.

جمع الفريق بيانات تغطي اللغة العربية بأشكالها المتنوعة، بما في ذلك الفصحى الحديثة والفصحى التراثية ولهجات من شمال أفريقيا وبلاد الشام ومنطقة الخليج العربي.

انطلق الفريق في عمله من نموذج للتعرّف على الكلام يُعرف باسم “محوّل النصوص والكلام العربي (ArTST)”، ودرّب ثلاث نسخ منه باستخدام بيانات الفصحى فقط للنسخة الأولى، وبيانات الفصحى واللهجات للنسخة الثانية، وبيانات الفصحى واللهجات ولغات متعددة للنسخة الثالثة.

اختبر الباحثون النسختين المدربتين على الفصحى والفصحى مع اللهجات في سيناريوهات متنوعة لتحديد أثر التدريب المسبق على اللهجات في أداء النموذج عند تعامله مع كل من الفصحى واللهجات.

لاختبار الأداء عند التعامل مع الفصحى، أجرى الباحثون تعديلات دقيقة على نسختي النموذج لضبطهما باستخدام مجموعة بيانات للفصحى اسمها “MGB2″، وقارنوا نتائجهما مع أحدث النماذج المتقدمة. فوجدوا أن النسخة المدرّبة على الفصحى واللهجات سجلت أقل معدل خطأ في الكلمات، مما يعني أن التدريب المسبق على اللهجات لم يؤثر سلباً على الأداء في الفصحى.

ولاختبار الأداء عند التعامل مع اللهجات، ضبطوا النسختين باستخدام مجموعة بيانات مصرية تسمى “MGB3″، وقارنوا نتائجهما مع النماذج الأخرى. ومرة أخرى، سجلت النسختان أداءً أفضل من النماذج الأخرى، مع تفوق النسخة المدرّبة على الفصحى واللهجات معاً على النسخة المدرّبة على الفصحى فقط بنسبة 4%. ويُعد هذا أفضل أداء سُجّل على هذه المجموعة المعيارية حتى الآن. كما أظهرت الاختبارات على مجموعة بيانات مغربية تحسناً بنسبة أقل.

واختبر الباحثون النسختين على مجموعات بيانات معيارية خاصة باللهجات، مع وبدون ضبطهما وفقاً للهجات، ووجدوا أن التدريب المسبق على اللهجات أدى إلى تحسن الأداء في جميع هذه الاختبارات.

تأثير ضبط النموذج على اللهجات

في جميع هذه الاختبارات، أُعيد ضبط النماذج على لهجات محددة، ثم اختُبرت على اللهجات نفسها. لكن هل يؤدي الضبط على عدة لهجات معاً إلى تحسين النموذج أكثر؟

للإجابة عن هذا السؤال، ضبط الباحثون النموذج على 12 لهجة مختلفة، وطوروا نسخاً أخرى استخدمت أداة للتعرّف على اللهجات اسمها “Dialect ID”. في إحدى الحالات، كان على النموذج توليد العناصر اللغوية بناءً على لهجة محددة له بشكل مسبق. وفي حالة أخرى، كان عليه أن يولّد العناصر وفق لهجة معينة يحددها بنفسه.

أظهرت النتائج أن الضبط على عدة لهجات حسّن الأداء في اللهجات ذات الموارد المحدودة، ولكن مع تراجع الأداء في اللهجات ذات الموارد الوفيرة.

وعلى الرغم من فعالية أداة التعرف على اللهجات، إلا أن أداء النموذج كان أفضل عندما حدد اللهجة بنفسه بدلاً من أن تُحدَّد له مسبقاً. وترى تويين أن السبب في ذلك قد يعود إلى مشكلة في تصنيف البيانات، موضحة ذلك بقولها: “إذا أُعطي النموذج تصنيفاً خاطئاً للهجة، فستكون مخرجاته خاطئة. أما إذا تُرك ليستنتج اللهجة، فيمكنه تصحيح نفسه والتوجّه في المسار الذي يراه الأنسب”.

وأخيراً، اختبر الباحثون قدرة النموذج على التعامل مع التناوب اللغوي، ووجدوا أن التدريب المسبق على لغات متعددة حسّن الأداء في جميع اختبارات التناوب اللغوي وأدى إلى خفض معدل الخطأ في الكلمات بنسبة تتجاوز 10%. ولكن كان هناك تراجع طفيف في الأداء على مجموعة بيانات الفصحى الحديثة، وكان هذا التراجع ملحوظاً عند التعامل مع اللهجات، حيث تراوح معدل الخطأ في الكلمات بين 4% و16%.

الخطوات القادمة في مجال التعرّف الآلي على الكلام باللهجات

على الرغم من أن النتائج أظهرت أن التدريب المسبق على اللهجات يمكن أن يُسهم في تحسين أداء نماذج التعرّف الآلي على الكلام، إلا أن جانيبيكوف وتويين يؤكدان على الحاجة إلى المزيد من الجهود لتحسين هذه الأنظمة، ولا سيما إنشاء مجموعات بيانات جديدة تركز تحديداً على التنوع الكبير للهجات العربية، حيث ترى تويين أن توحيد بيانات اللهجات سيساعد الباحثين بشكل كبير، وتأمل أن يحرص الباحثون على تصنيف البيانات بدقة عند تجميع مجموعات بيانات جديدة. وهي تعمل حالياً على مشروع لتطوير موارد خاصة باللهجة الإماراتية ولهجات أخرى.

أما جانيبيكوف، فقد أتاح له هذا البحث إدراك حجم التنوّع الكبير في اللهجات وما يترتب على ذلك من تحديات في مجال التعرّف الآلي على الكلام، ليس بالنسبة للغة العربية فقط، بل للغات الأخرى أيضاً.

أخبار ذات صلة

thumbnail
الأربعاء، 03 سبتمبر 2025

جامعة محمد بن زايد للذكاء الاصطناعي تفتح باب القبول لفصل خريف 2026

ترحب أول جامعة في العالم مكرَّسة للذكاء الاصطناعي بالطلاب المتميزين من مختلف أنحاء العالم للانضمام إلى برامجها.....

  1. intake ,
  2. Bachelor's ,
  3. post-graduate ,
  4. graduates ,
  5. applications ,
  6. students ,
  7. Ph.D. ,
  8. Undergraduate ,
  9. master's ,
اقرأ المزيد
thumbnail
الاثنين، 04 أغسطس 2025

أساليب كسر قيود الذكاء الاصطناعي وطريقة جديدة للتصدي لها

دراسة حديثة تلقي الضوء على هجمات كسر القيود [Jailbreak Attacks]، وتقترح طريقة جديدة لتعزيز حماية النماذج اللغوية.....

  1. المؤتمرات ,
  2. الأمن ,
  3. البحوث ,
  4. معالجة اللغة الطبيعية ,
  5. ACL ,
  6. الدراسات ,
  7. السلامة ,
  8. هجمات كسر القيود ,
  9. Jailbreak ,
اقرأ المزيد