النماذج اللغوية الكبيرة وفهم انفعالات الإنسان وعواطفه

Tuesday, November 26, 2024
A man chooses between digital images of a happy, sad and neutral face, showing the ability to understand and interpret emotion and empathy.

كُتبت قصص وأُنتِجت أفلام خيال علمي كثيرة ظهرت فيها الآلات غير قادرة على فهم انفعالات الإنسان التي تعد بالنسبة له أمراً طبيعياً، ومثال هذه الانفعالات الشعور بالحزن أو الندم أو الخوف أو الحب؛ وخلاصة هذا تعني أن في الوقت الذي يغلب فيه على تصرفات الآلات المنطقية والموضوعية، فإن تصرفات الإنسان يغلب عليها انفعالاته التي تشكل تجربته الشخصية أو الذاتية.

فبينما قد تُقدِّم القصص والأفلام هذه الجزئية الانفعالية من سيكولوجيا الإنسان على أنها في ناحية من النواحي ضعف، فإن قدرتنا على التعاطف مع الآخرين وإدراك كيف تختلف تجاربنا عن تجارب غيرنا، تبقى قدرة تجعلنا – إلى حد بعيد – قادرين على فهم الآخر والتواصل معه. وإذا كانت الآلات قادرة على التعاطف بطريقة مماثلة، فقد تكون قادرة على فهمنا بشكل أفضل.

وبهدف فهم أعمق لمدى قدرة الآلات على إدراك هذه الانفعالات الحسية، قام باحثون في جامعة محمد بن زايد للذكاء الاصطناعي وجامعة مُونَاش بتناول هذا الموضوع بالبحث لتحديد مدى قدرة النماذج اللغوية الكبيرة على تفسير مفاهيم مثل التعاطف، والعاطفة، والأخلاق في القصص المكتوبة واقترحوا طرقا لتحسين قدرة هذه النماذج على فهم هذه المفاهيم المجردة.

يذكر أن الدراسة، سيتم تقديمها خلال فعاليات مؤتمر الأساليب التجريبية في معالجة اللغة الطبيعية – 2024، الذي سيعقد في ميامي.

وعن هذه الدراسة، أوضحت يوكسيا وانغ – باحثة ما بعد الدكتوراه في معالجة اللغة الطبيعية بجامعة محمد بن زايد للذكاء الاصطناعي والمؤلف الأول للدراسة – كيف أنه في مجالات مثل الرعاية الصحية من الضروري أن تتفاعل النماذج اللغوية مع المرضى بأسلوب يتسم بالتفهم والتعاطف، شارحة أن: “هدفنا – طبعاً – هو تطوير نماذج أفضل، ولكننا أيضاً بحاجة إلى نماذج متفهمة وقادرة على المواساة”.

قياس مستوى التعاطف آلياً

وبدوره علق على الدراسة محمد أرسلان منظور – طالب الدكتوراه في معالجة اللغة الطبيعية في الجامعة نفسها ومؤلف أول إلى جانب الطالبة وانغ – قائلا: “إن البحث في الكيفية التي يمكننا بها جعل الآلة تتعاطف أكثر معنا وتفهم مشاعرنا بشكل أفضل باستخدام اللغة، هو – حقا – موضوع مثير للاهتمام”.

تتمتع النماذج اللغوية الكبيرة، على غرار سلسلة نماذج GPT من شركة OpenAI وLLaMA من شركة Meta، بالقدرة على الفهم الدلالي للغة؛ أي تفسير العلاقات بين الكلمات. وتمكن هذه القدرة هذه النماذج من إنتاج/توليد النصوص المكتوبة في مجالات وموضوعات متعددة بأساليب مختلفة، غير أن هذه الأنواع المختلفة من الأساليب تنطوي على أنواع مختلفة من المعاني التي يتم نقلها باللغة ومن خلالها كما أوضح ذلك أرسلان: “يمكن أن تكون قصتان متشابهتان دلالياً ومختلفتان من حيث حمولتهما العاطفية في الوقت نفسه”.

تستند نتائج الدراسة البحثية التي أنجزها أرسلان ووانغ وزملائهما إلى عمل فريق من الباحثين من “معهد ماساتشوستس للتكنولوجيا” ومؤسسات أخرى قاموا بوضع إطارٍ لنمذجة التشابه الانفعالي العاطفي بين السرديات، يصفه [إطار النمذجة] مؤلفو الدراسة على أساس اعتباره الطريقة التي يدرك بها الناس أوجه التشابه بينهم وبين الآخرين وكيف يتفاعلون مع هذه السمات عاطفياً.

في الدراسة التي أصدرها “معهد ماساتشوستس للتكنولوجيا”، قام الباحثون بجمع تشكيلة من القصص القصيرة ضمن حزمة بيانات أسموها بـ EmpathicStories، ثم قاموا بتلخيصها وتصنيفها بنموذج لغوي كبير. وبغرض تحديد التشابه بين كل زوج منها، استعان الباحثون بأشخاص قام كل منهم بتقييم درجات التشابه بين كل اثنين منها وإعطاء درجات تتراوح بين 1 و4 بحيث أن 1 يعني أن القصتين غير متشابهتين و4 تعني أنهما متشابهتين استناداً إلى أربعة معايير هي: التعاطف والموقف والانفعال النفسي والدرس المستفاد. تم تقييم كل قصتين من قبل شخصين (معلقين).

أفضت عملية تقييم هذه القصص إلى تصنيف أطلق عليه الباحثون اسم “الحقيقة الأساسية” لمجموعة البيانات. كما عمل الباحثون، بالإضافة إلى هذا، على تدريب نماذج لغوية على تحليل القصص ضمن حزمة البيانات وتحديد مدى تشابه كل اثنين منها.

وعلى غرار الباحثين في “معهد ماساتشوستس للتكنولوجيا”، قام أيضاً أرسلان وزملاؤه ضمن الفريق البحثي باختبار قدرة عدد من النماذج اللغوية على التنبؤ بالتشابه بين القصص المدرجة ضمن حزمة بياناتEmpathicStories ، وقارنوا ما توقعته النماذج بتصنيف “الحقائق الأساسية”.

الحقيقة أن النماذج التي أخضعها فريق جامعة محمد بن زايد للذكاء الاصطناعي البحثي للاختبار، لم تكن توقعاتها لدرجات التشابه متوافقة مع تصنيف “الحقائق الأساسية”. ولتحسين أداء هذه النماذج، استخدم الفريق تقنيات مختلفة [بما فيها التعلم التبايني، والاستدلال، والضبط الدقيق] أسهمت في تعزيز أدائها وزيادته بمعدل تراوح بين 5% و10%، ومعدل دقة كلي قارب 40% في كثير من الحالات – وعن هذه النتائج أوضح أرسلان أن رغم ما تمت ملاحظته من تحسن في أداء هذه النماذج إلا أنها واجهت صعوبات حتى بعد عملية الضبط الدقيق لها.

الذاتية وما تطرحه من تحديات

أدى الأداء الضعيف للنماذج التي أخضعها الفريق للاختبار إلى أن يعتقد أرسلان وزملاؤه أن العائق قد يكمن فعلاً في البيانات نفسها والطبيعة الذاتية لتفسير أو كيفية إدراك المفاهيم المرتبطة بشعور التعاطف وتفاعل كل شخص مع المواقف التي قد يجد نفسه فيها.

نظرا لأن مجموعة بياناتEmpathicStories  تم تصنيفها بواسطة أشخاص تختلف طرق إدراك كل واحد منهم عن الآخر لماهية الأخلاقيات والانفعالات الحسية، فإنه من الصعب وضع الأصبع على ما يمكن وصفه بـالـ “حقيقة الأساسية”، حيث أن شخصا ما قد يقيم قصتين باعتبارهما متشابهتين إلى حد ما (2)، بينما قد يقيم آخر القصتين نفسهما باعتبارهما متشابهتين جدًا (4) – وعن هذه الإشكالية أوضح أرسلان بأنه “لا يمكننا أن نتعامل مع هذه المشكلة وفق هذا النهج، ولا يمكننا اعتبار هذه التقييمات مطلقة لأنها تعتمد بشكل كبير على الإدراك الذاتي للأشخاص الذين يقومون بالتقييم.

وبهدف تبين صحة فرضيتهم ودراسة كيفية تأثير الاختلاف في إدراك الأشخاص الذين قاموا بتصنيف مجموعة بيانات EmpathicStories التي بناء عليها تم وضع تصنيف “الحقائق الأساسية”، قام فريق الباحثين من جامعة محمد بن زايد بالاستعانة بمجموعة من الأشخاص ذوي خلفيات ثقافية وعرقية مختلفة للقيام بالمهمة نفسها. وقد تبين للفريق البحثي أن قراءة القصص كاملةً بدلاً من ملخصاتها، نتجت عنه درجات تشابه عالية (في دراسة معهد ماساتشوستس للتكنولوجيا، قرأ المصنفون ملخصات تم إنتاجها آلياً). كما وجدوا أن الأشخاص الذين يعرفون بعضهم شخصيا أظهروا توافقا أكبر في فهمهم لهذه القصص، ورغم هذا وجد الباحثون تبايناً كبيراً في كيفية فهم المصنفين لهذه القصص.

ورغبة في تعميق البحث، أنشأ الباحثون مجموعة بيانات جديدة تحتوي على نصوص باللغة الأردية مكتوبة باستخدام الخط الروماني المنتشر استخدامه في دول جنوب آسيا. وجاءت الخطوة بهدف التحقق من فرضية أن الحصول على تصنيفات من الناطقين الأصليين قد يساعد في التقليل أو التخفيف من عنصر الذاتية. وللإشارة، لم يسبق إجراء أي عمل مشابه باللغة الأردية.

طلب الفريق البحثي من نموذج GPT-4o من شركة OpenAI توليد 300 زوج من القصص باللغة الأردية والتي قام أربعة ناطقين باللغة الأردية بتصنيفها متبعين في ذلك الطريقة نفسها التي اعتمد عليها الفريق البحثي من “معهد ماساتشوستس للتكنولوجيا”، حيث تراوحت درجات تقييم التشابه بين كل قصتين من 1 إلى 4؛ ومرة ​​أخرى، وجد الباحثون أن المعلقين الذين يعرفون بعضهم كان تقييمهم متشابه، الأمر الذي يجعل فريق البحث يخلص إلى أن قدرة الآلات على تفسير مشاعر التعاطف سيكون أفضل في حال امتلاك المصنفين فهما أعمق بالسمات الثقافة والمعايير المحلية.

التعاطف عبر الثقافات

نعيش في عصر تتسم فيه النماذج اللغوية الضخمة بقدرتها على معالجة العديد من اللغات، حيث تم تدريب بعض الأنظمة على أكثر من 100 لغة. وبينما يطمح المطورون إلى أن يتمكن نموذج واحد من تلبية احتياجات المتحدثين بلغات متعددة، تُظهر أبحاث أرسلان ووانغ وزملائهم أن مفهوم التعاطف هو مفهوم خاص للغاية ويتأثر بشكل كبير بالسياق الثقافي. بالإضافة إلى ذلك، فإن المفاهيم المتعلقة بالتعاطف تشكل تحدياً ليس فقط للنماذج في تفسيرها، بل للبشر أيضاً في التوصل إلى توافق حولها.

أوضح أرسلان قائلاً: “لا يمكننا القول إن النماذج اللغوية الكبيرة قادرة على أن تكون متعاطفة في الوقت نفس مع جميع الأفراد”. وأضاف: “الأشخاص من خلفيات ثقافية متنوعة يستخدمون هذه النماذج، وقد لا يدركون تمامًا كيفية تأثير هذه الأنظمة عليهم. نحن نهدف إلى تعزيز الذكاء العاطفي لتلك النماذج مع الحفاظ على المعايير الثقافية للتعاطف في السياق المستهدف.”

ومن جهتها، قالت وانغ: “خطوتي التالية هي جعل النماذج أكثر تعاطفاً، وتمكينها من التواصل بالطريقة التي يتفاعل بها البشر في سياقات متعددة.”

أخبار ذات صلة