معالجة اللغات كالإنسان

Monday, August 29, 2022

من منّا لا يطلب من هاتفه المحمول أو مكبرات الصوت الذكية الاتصال بصديق، أو تشغيل أغنية، أو توجيهه إلى أقرب محطة وقود. إلا أن هؤلاء المساعدين الافتراضيين لا يتمتعون بنفس الفعالية في مختلف اللغات. فإذا كنت تتحدث إلى مساعدك الافتراضي باللغة الإنجليزية، من المحتمل أن تحصل على النتيجة التي تبحث عنها. لكن معدل الخطأ في التعرف التلقائي إلى الكلام يزداد بشكل كبير في اللغات الأخرى. لذا لا بد من تحسين عملية التعرف الآلي إلى الكلام على نطاق واسع في العدد من اللغات، قبل أن نتمكن من تقديم نتائج موثوقة للمستخدمين.

في هذا الإطار، تهتم الدكتورة حنان الدرمكي، الأستاذة المساعدة في قسم معالجة اللغات الطبيعية في جامعة محمد بن زايد للذكاء الاصطناعي، بتحسين التعرف الآلي إلى الكلام في اللغات التي تُسمى علميًا باللغات منخفضة الموارد. وهي لغات تفتقر إلى البيانات التي يمكن استخدامها تدريب النماذج الحوسبية التي تُعتبر أساسًا للتعرف الآلي الدقيق إلى الكلام.

[wps_pull-out-quote-right-2 content=”…ونحن نريد أن نكون قادرين على معالجة اللغة وفقاً للطريقة التي يتحدث بها الناس.” surename=”الدكتورة حنان الدرمكي” source=”الأستاذة المساعدة في قسم معالجة اللغات الطبيعية في جامعة محمد بن زايد للذكاء الاصطناعي“] فقد أصبح التقدم في مجال التعرف الآلي إلى الكلام، على مدار العقد الماضي، ممكنًا من خلال تقنية تسمى التعلُّم الموجّه. إذ تتيح هذه التقنية تغذية مجموعات البيانات الكبيرة من اللغة المنطوقة والنصوص المقابلة، والمعروفة باسم البيانات المُسماة، في نماذج حسابية تُسمى الشبكات العصبية. وعند توفير بيانات كافية، تقيم هذه الشبكات العصبية، بشكل دقيق، علاقات بين اللغة المنطوقة والنص المكتوب، في لغة معينة، الأمر الذي يؤدي إلى التعرف الآلي إلى الكلام بدقة.

تعليقًا على الموضوع، قالت الدكتورة حنان الدرمكي: “تتحدث الشعوب المختلفة آلاف اللغات التي لا تشمل بيانات مسماة كتلك التي تشملها لغة مثل اللغة الإنجليزية والتي يمكن استخدامها لتدريب النماذج. وحتى في حال توفر بعض هذه الموارد، فغالبًا ما لا تتطابق تسجيلات هذه اللغات مع ما هو متاح في النص.”

اللغة العربية الفصحى الحديثة: لغة من دون توجيه

تقلّ فعالية نماذج التدريب عند غياب التطابق بين النص والصوت. ولا يخلو الأمر من تعقيدات إضافية أيضاً، ينحصر بعضها بلغات مثل اللغة العربية. فتنوّع اللهجات العربية مثلاً يجعل من الصعب استعمال هذه اللغة في التعرف الآلي إلى الكلام. علاوة على ذلك، يتوفر عدد محدود من الموارد المكتوبة التي تتوافق مع اللهجات العربية المتعددة التي يتحدث بها ملايين الأشخاص كل يوم.

وتقول الدكتورة حنان الدرمكي: “تُكتب النصوص باللغة العربية الفصحى الحديثة، ولكنّ أحداً لا يتحدث بالفصحى، ونحن نريد أن نكون قادرين على معالجة اللغة وفقاً للطريقة التي يتحدث بها الناس. إذ لا يمكننا ببساطة إلقاء البيانات التي نملكها حول هذه اللغات على شبكة عصبية. ومن أجل اكتشاف الأنماط التي تنطوي عليها هذه اللغات ووضع مخطط واضح لها، علينا القيام بأمور كثيرة بشكل يختلف عما نفعله مع لغات أخرى، مثل الإنجليزية”.

لذا، وسعيًا إلى معالجة هذا النقص على صعيد اللغات التي لا تتوفر موارد كافية لها، ركّزت الدكتورة الدرمكي في بحثها الأخير على تقنية تسمّى بالتعرف غير الموجَّه إلى الكلام، وشاركت في تأليف مقال مراجعة حول هذا الموضوع في مجلة Speech Communication في وقت سابق من هذا العام.

تكوين بيانات اللغة عبر تضمين الكلمات

تحاول تقنية التعرف غير الموجَّه إلى الكلام تحديد الوحدات المهمة في اللغة المحكية من دون وجود نص مقابل لها. وهذا ممكن بفضل مفهوم “تضمين الكلمات” الذي تم استخدامه في البداية لجمع مفردات اللغات المختلفة من دون إدخال المعرفة المتعلقة بهذه اللغات إلى النموذج الحوسبي.

ويعني تضمين الكلمات ترجمة الكلمات إلى تسلسلات من الأرقام تدعى المتجهات. تعاين النماذج الإحصائية التي تقوم بهذه الترجمة مجموعاتٍ كبيرة من البيانات وتضع خريطة إحصائية تأخذ في الاعتبار عدد المرات التي تظهر فيها الكلمات بجانب بعضها البعض في الجُمل. ويتم تمثيل الكلمات التي تظهر في سياقات لغوية مماثلة بواسطة متجهات متشابهة ولكن فريدة.

في هذا السياق، تقول الدكتورة الدرمكي: “ما لاحظناه عند النظر إلى تضمين الكلمات واحتساب المسافات بين الكلمات هو أن هذه المسافات ترتبط بالمعنى. فالمسافة بين الكلمة المستعملة لـ “طاولة” والكلمة المستعملة لـ “كرسي”، على سبيل المثال، تُظهر علاقةً ما بين هاتين الكلمتين؛ وتتشابه هذه العلاقات بين اللغات المختلفة”.

والفكرة التي يمكن استخلاصها هنا هي التشابه بين العلاقة بين الأشياء في العالم وكيفية تمثيل هذه الأشياء في اللغات. وفي حين أن مفهوم تضمين الكلمات قد جعل من الممكن رسم خريطة للكلمات بين اللغات المختلفة، إلا أنه من الممكن استخدامه أيضًا لتحسين التعرف الآلي إلى الكلام من دون الحاجة إلى مجموعات البيانات الهائلة التي كانت ضرورية لهذا العمل في الماضي.

أما في ما يتعلق بمستقبل مجال معالجة اللغات الطبيعية، فتعتقد الدرمكي أنه يسير في اتجاه مثير للاهتمام. وتقول في هذا الإطار: “ثمة مقتضيات فلسفية كثيرة تجعل من الصعب التنبؤ بالمستقبل. وقد شهدت معالجة اللغات الطبيعية تقدماً مهولاً، حتى في خلال السنوات القليلة الماضية وحدها”.

مع ذلك، وعلى الرغم من الوتيرة السريعة التي يتطور بها هذا المجال، تُبدي الدكتورة الدرمكي موقفاً واقعياً عند الحديث عن التأثير الذي يمكن أن يحدِثه الباحثون أمثالها، بحيث تقول “إنّ الذكاء الاصطناعي مجالٌ عملي وعلينا الاهتمام بتطبيقاته”.

نبذة عن الدكتورة حنان الدرمكي

يركز عمل الدكتورة حنان الدرمكي على معالجة اللغات الطبيعية والتعرّف الآلي إلى الكلام في اللغات منخفضة الموارد. وتشمل الطرق التي تستخدمها: التعلّم غير الموجّه والتعلّم المنقول والتوجيه عن بُعد، التي تهدف كلها إلى تكييف نماذج معالجة اللغات الطبيعية والتعرّف الآلي إلى الكلام للتعامل مع لغات ولهجات نادرًا ما تتوفر لها البيانات المُسمّاة، ذلك في حال توفرت على الإطلاق. ويغطي عملها دراسة حالات الانتظام في النصوص وأنماط الكلام، سعيًا إلى اكتشاف وتحديد المصطلحات عبر مختلف اللغات والصيغ، مثل استقراء القاموس غير الموجه، وتضمينات الكلام والنصوص عبر لغات متعددة، والتعيين غير الموجه لتحويل الكلام إلى نص.

شغلت الدكتورة الدرمكي منصب أستاذة مساعدة في قسم علم الحاسوب وهندسة البرمجيات في جامعة الإمارات العربية المتحدة، قبل انضمامها إلى جامعة محمد بن زايد للذكاء الاصطناعي. وأثناء إكمال درجة الدكتوراه، شغلت منصب أستاذة مساعدة ومحاضرة في جامعة جورج واشنطن، بالإضافة إلى مشاركتها كمتدربة في مشاريع بحثية في شركة آبل وخدمات الحوسبة السحابية في شركة أمازون. أما قبل بدء برنامج الدكتوراه، فعملت كمحللة إحصائية في مركز الإحصاء في أبوظبي وكمهندسة شبكات في هيئة كهرباء ومياه دبي.

يُذكر أنها حاصلة على شهادة الدكتوراه في علوم الحاسوب من جامعة جورج واشنطن، الولايات المتحدة الأمريكية، والماجستير في تقنيات الكلام والنص والإنترنت الحاسوبية من جامعة كامبريدج، المملكة المتحدة، والبكالوريوس العلوم في هندسة الحاسوب من الجامعة الأمريكية في الشارقة، الإمارات العربية المتحدة.

أخبار ذات صلة

thumbnail
Tuesday, November 26, 2024

النماذج اللغوية الكبيرة وفهم انفعالات الإنسان وعواطفه

فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي وجامعة موناش يبحث في مدى قدرة النماذج اللغوية.....

  1. البحوث ,
  2. النماذج اللغوية الكبيرة ,
  3. EMNLP ,
  4. معالجة اللغة الطبيعية ,
  5. انفعالات الإنسان ,
  6. التعاطف ,
اقرأ المزيد