رغم الانتشار الواسع الذي عرفه استخدام عبارة ’الأخبار الزائفة‘ نهاية العقد الماضي في أعقاب الانتخابات الرئاسية الأمريكية التي جرت عام 2016، وتزايد الحاجة إلى تطوير الحلول الكفيلة بمساعدتنا على التمييز بين الحقيقة والخيال، إلا أن ظهور النماذج اللغوية الكبيرة وقدرتها على توليد كميات هائلة من المواد الحقيقية والمزيفة بسرعة، جعل التعرف على الأخبار المزيفة أكثر تعقيداً وضرورة ملحة أكثر من أي وقت مضى.
دراسة حديثة أجراها بريسلاف ناكوف، أستاذ ورئيس قسم معالجة اللغة الطبيعية في جامعة محمد بن زايد للذكاء الاصطناعي، بالتعاون مع فريق بحثي من جامعة كورنيل، تناولت موضوع الكيفية التي يمكن بها للعلماء تطوير نظم يمكنها كشف الأخبار الزائفة في سياق مشهد إعلامي معقد ودائم التطور أصبحت في خضمه المواد الإعلامية المكتوبة، سواء صحيحة أو كاذبة، يمكن للإنسان والآلة إنتاجها على حد السواء.
وتعد هذه الدراسة بمثابة أول مجهود بحثي متكامل يتناول نظم كشف الأخبار الزائفة وقدرتها على التمييز بين الأخبار الحقيقية والكاذبة التي ينتجها الإنسان أو الآلة على حد سواء من خلال نطاق واسع من السيناريوهات. وقد تم تقديم هذا البحث مؤخراً خلال فعاليات المؤتمر السنوي لعام 2024 لفرع أمريكا الشمالية لجمعية اللغويات الحاسوبية الذي انعقد في مدينة مكسيكو.
وتعليقاً على هذا البحث ذكر ناكوف أن جوهره يتعلق بالكيفية التي يجب بها أن ندرّب نظم كشف الأخبار الكاذبة، خصوصا مع تنامي نسبة الأخبار الحقيقية والمزيفة التي تنتجها الآلات بمرور الوقت، وكيف يمكن أخذ هذه التغييرات في عين الاعتبار عندما ندرب هذه الأنظمة.
رمال متحركة
كانت، إلى الأمس القريب، معظم الأخبار – سواءً حقيقية أم مزيفة – كان الإنسان هو من يكتبها مع استثناء بعض التقارير المختارة، مثل توقعات الأحوال الجوية أو ملخصات الأحداث الرياضية، التي كانت أحياناً – يقول ناكوف – تكتبها الآلات؛ مما يعني أن المواد الإعلامية المكتوبة آلياً كان نطاقها محدوداً ومتخصصاً، إلا أن الدراسة التي أنجزها ناكوف وزملاؤه أظهرت أن في الوقت الذي كانت فيه معظم الأخبار المزيفة يكتبوها الإنسان قبل عام 2018، فقد أصبحنا اليوم نشهد تنامياً لكمية المعلومات الخاطئة المهولة الموجودة عبر الإنترنت التي تنشئها النماذج اللغوية الكبيرة.
ورغم قدرة النماذج اللغوية الكبيرة على إنتاج المواد المكتوبة بكفاءة وسرعة عالية، يوضح ناكوف أن هذه القدرة نفسها التي تتمتع بها هذه التكنولوجيا يمكن استخدامها أيضاً لتحليل هذا المحتوى الذي تنتجه هذه النماذج اللغوية الكبيرة نفسها.
وفي بحث سابق له، درس ناكوف نظم النماذج اللغوية الكبيرة التي تحلل العلاقة بين الأخبار المزيفة والنصوص المكتوبة آلياً، ووجد أن نظم الكشف التي ركز بحثه عليها قد شابها تحيزان اثنان هما: 1) – الميل إلى تصنيف الأخبار المكتوبة آلياً على أنها مزيفة بغض النظر عن صحتها؛ 2) – الميل إلى تصنيف الأخبار التي يكتبها الإنسان على أساس اعتبارها صحيحة بغض النظر عن صحتها من عدمها.
وتحد هذه التحيزات من فائدة هذه النظم في عصر تُكتب فيه بعض الأخبار الحقيقية آلياً وبعضها الآخر المزيف يكتبه الإنسان. ويمكن لهذه التحيزات أيضاً أن تطرح في السنوات المقبلة مشكلة أكبر خاصة عندما يتعلق الأمر بالأخبار الحقيقية. وذكر ناكوف أن: “في المستقبل يمكننا أن نتخيل نوعاً من هيمنة الآلة التي ستكتب الغالبية العظمى من الأخبار الحقيقية”.
وأكد ناكوف وزملاؤه في بحثهم التوجه نحو هذا الواقع في المستقبل، حيث وجدت الدراسة التي أنجزوها أن وكالات الأنباء تستخدم حالياً النماذج اللغوية الكبيرة “لأغراض مشروعة، مثل مساعدة الصحفيين في إنشاء المحتوى”. وخلاصة القول فإن تحديد مدى صدقية مادة مكتوبة لا يرتبط بالضرورة بشرط إذا كان من كتبها إنسان أو إذا كان من أنتجها آلة.
وبهدف توفير تفاصيل أكثر دقة عن أنواع النصوص التي يجب لنظم كشف الأخبار الزائفة تحليلها ومحاولة رفع هذا التحدي الذي تطرحه هذه القضية، اقترح ناكوف وزملاؤه إطاراً مرجعيا يتكون من أربع فئات هي: 1) – أخبار حقيقية تم إعادة صياغتها بواسطة الآلة، 2) – أخبار مزيفة تم إنشاؤها بواسطة الآلة، 3) – أخبار حقيقية كتبها الإنسان، و4) – أخبار مزيفة كتبها الإنسان. ويجب، في هذا الإطار، أن تكون نظم كشف الأخبار الزائفة قادرة على معالجة هذه الأنواع المختلفة من النصوص وتحديد صحتها بناءً على المعلومات الموجودة فيها، وليس استناداً إلى كيفية إنتاجها.
أسفرت الدراسة عن ثلاثة نتائج رئيسة: أولاً – في حال تم تدريب نموذج الكشف على الأخبار الحقيقية والمزيفة التي يكتبها الإنسان، فإن النموذج يصبح قادراً على كشف الأخبار المزيفة التي تنتجها الآلة، غير أن تدريبه فقط على الأخبار المزيفة التي تنتجها الآلة، يجعل أداءه ضعيفاً في اكتشاف الأخبار المزيفة التي يكتبها الإنسان. ثانياً – وجدت الدراسة أن الكاشف يظهر “أداء متوازناً” عبر الأنواع المختلفة من المواد المكتوبة في حال كانت مجموعة بيانات التدريب تحتوي على نسبة أقل من الأخبار المزيفة المنتجة آلياً مقارنة مع عينة الاختبار. ثالثاً – خلص البحث إلى أن كاشف الأخبار المزيفة يتفوق في التعرف على الأخبار المزيفة التي يتم إنتاجها آليا بشكل أفضل مما هو عليه في التعرف على الأخبار المزيفة التي ينتجها الإنسان. ويعزو الباحثون هذا التناقض إلى التحيزات المترتبة عن ممارسات التدريب الحالية لنظم الكشف عن الأخبار المزيفة والصحيحة.
توصل ناكوف وزملاؤه أيضاً إلى أن أداء النماذج اللغوية الكبيرة لا يكون دائماً أفضل من أداء النماذج اللغوية الصغيرة، التي تبينت فعالية أدائها عند قيامها بتحليل بعض الفئات الفرعية من النصوص، وربما السبب في هذا يرجع إلى أنها لم تتأثر بالتحيز في التدريب بالطريقة نفسها التي تأثرت بها النماذج اللغوية الكبيرة.
ونظراً لأن العديد من النماذج اللغوية الكبيرة توصف بكونها “صناديق سوداء”، أي أننا لا يمكننا فهم أو تفسير عملياتها الداخلية، فإن الباحثين ليسوا متأكدين من السبب الكامن وراء النتائج التي يتوصلون إليها. وأوضح ناكوف أنهم يعلمون ما يعمل بشكل جيد في تدريب نظم الكشف بناءً على أدائها، لكنه أشار إلى أن الأمر غامض بالنسبة لهم فيما يخص ما تقوم به لتصنيف النصوص.
مسعى في تطور دائم
رغم التطورات التي شهدتها نظم كشف الأخبار الزائفة، بفضل دراسات وأبحاث مثل تلك التي أجراها ناكوف وفريقه، إلا أن تطوير نظم فعالة للكشف عن الأخبار الزائفة يظل تحدياً دائماً. وأشار ناكوف إلى أننا أصبحنا نواجه تحدياً جديدا، حيث يمكننا في اللحظة التي نعرف فيها كيفية كشف الأخبار الزائفة، تجنب ذلك عن طريق إعطاء تعليمات محددة لتفادي الكشف عن المحتوى الذي ننتجه.
في المستقبل، من الممكن أن تتجه طرق إنتاج المواد المكتوبة نحو التطور إلى تعاون وثيق بين الإنسان والآلة وتجاوز سمت التمييز – حسب ناكوف – التي تشير إليها معظم الدراسات اليوم – بين ما يكتبه الإنسان وما تنتجه الآلة؛ وهذا فضلا عن اعتبارات أخرى يمكن فيها للإنسان – مثلا – كتابة محتوى ما تم تقوم الآلة بتحسين أو العكس إذ يمكن لآلة أن تنتج محتوى ما ثم يضفي عليه الإنسان طابعا إنسانياً.
وفي الوقت الذي قد يشكل فيه الاحتمال الأخير تحدياً إضافياً، خاصة عندما يتعلق الأمر بالقدرة على تحدد من كتب المادة المكتوبة وما يطرحه هذا من صعوبات بالنسبة لنظم كشف الأخبار الزائفة، فإن الهدف النهائي لمجتمع الباحثين في هذا المجال سيظل القدرة على التمييز بين الحقيقي والمختلق.
يحتفي العالم في 18 ديسمبر من كل عام باليوم العالمي للغة الضاد في لفتَتٍ يقف فيها العالم.....
فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي يطور مجموعة بيانات مرجعية هي الأولى من نوعها.....
باحثون من جامعة محمد بن زايد للذكاء الاصطناعي يطورون أدوات جديدة لتحسين دقة إجابات النماذج اللغوية الكبيرة.....