عندما حل فريقٌ من الباحثين من جامعة محمد بن زايد للذكاء الاصطناعي بسنغافورة للمشاركة بورقة بحثية خلال فعاليات “مؤتمر معالجة اللغة الطبيعية الأول الخاصِ بالعربية“، توقعوا الرجوعَ إلى أبوظبي بذكريات مناقشاتهم الشائقَة مع زملائهم؛ غير أن الأمر فاق ذلك بكثير، حيث أنهم عادوا وفي ذاكرتهم نُقِشَت ذكرى من نوع آخر بطعم الفائز بلقب أفضل ورقة بحثية تؤسس لمقاربة واعدة لمعالجة اللغة العربية المنطوقة، وتَعِد بإمكانية تطوير أدوات جديدة للمتحدثين بهذه اللغة.
تعقيدات الكلام
إذا كان عام 2023 بمثابة المنعطف الذي عرفت فيه النماذج اللغوية الكبيرة صعوداً مُلفتاً مَكّن من إلقاء الضوء على تكنولوجيا معالجة اللغة الطبيعية على نطاق واسع بين المهتمين وغيرهم، فإن العديد من التطبيقات مثل “شات جي بي تي” من شركة “أوبن أيه آي” وغيرها، ما تزال قدراتها مقيدة عندما يتعلق الأمر بالتعامل مع الكلام.
وأوضحت هاواو أولاميد توين – مؤلف أول للدراسة وطالبة في برنامج ماجستير تعلم الآلة في الجامعة – أنه رغم ما مكنتنا النماذج اللغوية الكبيرة من تحقيقه مؤخراً، فإن الحديث عن تطوير أدوات مماثلة بالنسبة للكلام، يجب أن يأخذ في عين الاعتبار عند تصميم البرامج التي تعالج الكلام عددا من التعقيدات المتصلة بطبيعة اللغة الملفوظة.
فالكلام – تقول توين – يتميز بمجموعة من السمات التي لا توجد في النص المكتوب، ومن قبيل ذلك نغمة الصوت ونبرته وحدته وهي كلها عناصر أو مكونات صوتية تحمل في طياتها معانٍ تواصلية لفظية. كما أشارت توين إلى أن معالجة الكلام تطرح تحدياً إضافياً بسبب التعقيدات المتصلة بالعناصر الصوتية وكثافة المعلومات المسموعة، حيث إن تمثيل عينة واحدة من الكلام الملفوظ هي أكبر من تمثيل عينة مماثلة لنص مكتوب.
وبالإضافة إلى تعقيدات العناصر الصوتية، فإن الكلام – بعكس المكتوب – لا يحتوي على فواصل واضحة بين عناصره، حيث إن الكلام يتدفق في شكل أصوات متتالية ومتداخلة في ما بينها، وهذا أمر يُصَعِّب على نماذج تعلم الآلة تحديد أين تنتهي كلمة وأين تبدأ أخرى. وتطرح هذه الطبيعة المسترسلة للكلام تحديات في تقسيم وتحديد الكلمات وتمييز العناصر اللغوية بدقة.
ويميز أميربيك دجانيبيكوف، في هذا الصدد، بين اللغة المكتوبة واللغة الملفوظة باعتبار الأولى ذات مكونات منفصلة بينما الثانية ذات عناصر مسترسلة، وبالنظر إلى طبيعة هذه الأخيرة؛ يقول دجانيبيكوف – المؤلف المشارك في الدراسة والطالب في برنامج ماجستير معالجة اللغة الطبيعية – بضرورة تطوير طرق مختلفة لتحليل وتفسير التدفق المستمر للعناصر اللغوية وغير اللغوية اللفظية معاً بشكل فعال.
ورغم التعقيدات التي تنطوي عليها معالجة الكلام، فقد تمكن الباحثون على مدى العقود الماضية من تطوير عدة برامج لمعالجة اللغة المنطوقة قادرة على تنفيذ مجموعة متنوعة من المهام، مثل برامج التعرف التلقائي على الكلام، الذي تشغل تطبيقات مثل “سيري” و”أليكسا”، بالإضافة إلى برامج تحويل المكتوب إلى منطوق، حيث تقوم الآلة بتحويل النص إلى صوت.
ويبقى أداء هذه التطبيقات – رغم ما حققته – تشوبه اختلافات واضحة على مستوى عدة لغات، ففي الوقت الذي قد يكون فيه أداء برامج التعرف التلقائي على الكلام جيداً باللغة الإنجليزية، إلا أنها من الوارد أن تواجه صعوبات عند تعاملها مع لغات أخرى. وينطبق هذا حتى على اللغة العربية التي يتحدث بها ما يقرب من 400 مليون شخص حول العالم.
نبذة عن تطبيق ArTST
وهذا ما يحاول فريق عمل توين ودجانيبيكوف تغييره، إذ عملوا على تطوير تطبيق أسموه “محول النص والكلام العربي” (Arabic Text and Speech Transformer) الذي يمكنه معالجة المدخلات الملفوظة والمكتوبة، في وقت تقوم فيه معظم التطبيقات الأخرى بمهم واحدة فقط. ويعد تطبيق ArTST أول نموذج تم تدريبه خصيصاً على اللغة العربية ويمكنه القيام بمهام مختلفة يعالج فيها المنطوق والمكتوب معاً.
يشار إلى أن فريق العمل استلهم تطوير تطبيق ArTST من ابتكار سابق يسمى SpeechT5، والذي صممه فريق تابع لشركة “مايكروسوفت” لمعالجة الكلام واللغة المكتوبة. وقد تم تدريب SpeechT5 باللغة الإنجليزية، مما جعل أداءه بالنسبة للغة العربية يتسم بمحدوديته.
وقد اعتمد تطوير تطبيق ArTST على البنية الهندسية الكلية لـتطبيق SpeechT5، وتم تدريبه باستخدام اللغة العربية الفصحى الحديثة فقط، وهي اللغة المستخدمة عادةً في الصحف وفي النشرات الإخبارية والمنتديات الحكومية، وليس في المحادثات اليومية. كما استخدم الباحثون مجموعات بيانات قياسية لتدريب ArTST، بما فيها مجموعة بيانات تسمى مجموعة بيانات Multi-Genre Broadcast، والتي تتكون من تسجيلات لبرامج تلفزيونية. يشار إلى أن مجموعة هذه البيانات القياسية تم استخدامها في العديد من الدراسات لتحديد مدى قدرة النماذج الأخرى على معالجة اللغة العربية الفصحى الحديثة.
تحقيق التوازن
وتلقي منهجية العمل التي اعتمدها الفريق الضوء على الصعوبة التي ينطوي عليها تطوير أدوات معالجة اللغة الطبيعية الملزمة، في معظم الحالات، للباحثين بضرورة تحقيق نوع من التوازن بين ثنائيتي العام والخاص، والشمول والدقة.
فعند القيام، على سبيل المثال، بتدريب نموذج لتعلم الآلة على قاعدة بيانات كبيرة، من الوارد أن يكون النموذج مفيداً على مستوى نطاق واسع كما قد يكون قادراً على مساعدة الكثير من الأشخاص؛ غير أن هذا قد يعني أيضاً إمكانية ضعف أداء النموذج في تنفيذ بعض المهام الأخرى.
وبهدف تحقيق أداء أمثل للنموذج الذي يطورونه، قرر فريق عمل توين ودجانيبيكوف التركيز فقط على اللغة العربية، وهو الأمر الذي أثبت جدواه وفعاليته.
وقد أظهرت الدراسة استناداً إلى طرق قياس الأخطاء التي ترتكبها أجهزة الحاسوب عند معالجة اللغة بالنظر إلى معدل الخطأ على مستوى الكلمات والأحرف، أن أداء ArTST في مهام: 1) التعرف التلقائي على الكلام، و2) تحويل النص إلى كلام و3) تحديد الجدلية كان أفضل مقارنة مع نماذج أخرى متعددة اللغات وأكبر من النموذج الذي طوره فريق العمل البحثي.
كما لاحظ الباحثون، فضلا عن هذا، أنه رغم الفوائد التي قد تنطوي عليها استخدامات النماذج التي تم تدريبها على أكثر من لغة واحدة، إلا أن النماذج التي صممت من أجل لغة واحدة بكل تعقيداتها وتفاصيلها الدقيقة من المرجح أن يكون أداؤها أفضل من النماذج متعددة اللغات.
يُذكر أن الدراسة التي فازت بلقب أفضل ورقة بحثية شارك في تأليفها أيضاً كل من أجينكيا كولكاريني، باحث ما بعد الدكتوراه في جامعة محمد بن زايد للذكاء الاصطناعي؛ وحنان الدرمكي، أستاذ مساعد في قسم معالجة اللغات الطبيعية في الجامعة نفسها.
الفصحى الحديثة وما بعدها
يشكل هذا العمل البحثي – تقول الدرمكي – خطوة أولى نحو تحسين تقنيات معالجة اللغة العربية المنطوقة. ونسعى إلى تطوير النموذج وجعله قادراً على التعامل مع مختلف اللهجات العربية. كما أننا بصدد تقييم التطبيقات الأخرى الممكنة للنموذج مثل الترجمة الفورية.
وبالإضافة إلى اللهجات، يخطط الباحثون لتوسيع نطاق ArTST ليشمل أيضاً شيفرة التغيير اللغوي؛ أي عندما يقوم المتحدث بخلط لهجات أو لغات مختلفة معاً، وهي عملية يقوم بها الأشخاص من دون تفكير، غير أنها تطرح تحدياً بالنسبة لنماذج تعلم الآلة.
ولمعالجة هذه المسألة، يرى الباحثون أن تفاصيل اللغة العربية الدقيقة وتعقيدات شيفرة التغيير اللغوي أن “التطوير المركّز” للنماذج المعالجة اللغوية التي تتفوق في اللغة العربية، يمكنها أن تحل هذه المشكلة على نحو أفضل، على عكس النماذج القادرة على معالجة لغات مختلفة.
يحتفي العالم في 18 ديسمبر من كل عام باليوم العالمي للغة الضاد في لفتَتٍ يقف فيها العالم.....
فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي يطور مجموعة بيانات مرجعية هي الأولى من نوعها.....
باحثون من جامعة محمد بن زايد للذكاء الاصطناعي يطورون أدوات جديدة لتحسين دقة إجابات النماذج اللغوية الكبيرة.....