على الرغم من التحسن الملحوظ في كفاءة النماذج اللغوية الكبيرة متعددة الوسائط في تحليل الصور ومقاطع الفيديو، ما زالت هذه النماذج ترتكب الأخطاء، بل وتفبرك أحياناً أشياء لا وجود لها في الصور. وهذه الهلوسات تحدّ من فاعلية النماذج، ولا سيما في الحالات التي تتطلب درجة عالية من الدقة.
في هذا السياق، طوّر باحثون في جامعة محمد بن زايد للذكاء الاصطناعي وجامعة موناش ومؤسسات أخرى أداة جديدة اسمها “FarSight“ يمكن استخدامها مع النماذج اللغوية الكبيرة متعددة الوسائط لتقليص نسبة الهلوسات.
يوضح فيلونغ تانغ، الطالب الزائر في جامعة محمد بن زايد للذكاء الاصطناعي والمؤلف الرئيسي للدراسة، أنه عندما تنتج النماذج اللغوية الكبيرة متعددة الوسائط مقاطع نصية طويلة حول صورة معينة، قد تتوقف أحياناً عن التركيز على التفاصيل ذات الصلة في الصورة، مما يؤدي إلى الهلوسة. ويضيف قائلاً: “نسعى من خلال الأداة “FarSight” إلى زيادة موثوقية هذه النماذج ومعالجة نقاط الضعف فيها”.
قدّم تانغ وزملاؤه محاضرة عرضوا خلالها دراستهم البحثية حول الأداة “FarSight” في مؤتمر الرؤية الحاسوبية والتعرف على الأنماط الذي عُقد في ناشفيل بولاية تينيسي الأمريكية. وكانت هذه الدراسة واحدة من 96 دراسة بحثية قُبِلت لعرضها في المؤتمر من أصل أكثر من 13,000 دراسة بحثية مقدمة.
وشارك في إعداد الدراسة كل من تشينغتشي ليو، وتشونغشينغ شو، ومينغ هو، وتسلين بينغ، وتشيوي يانغ، وجيونغلونغ سو، ومينتشوان لين، وييفان بينغ، وشويلين تشنغ، وعمران رزاق، وزونغيوان جي.
هلوسة تؤدي إلى أخرى
تنشأ الهلوسات في النماذج اللغوية الكبيرة متعددة الوسائط من عدم التوافق بين ما يظهر في الصورة والنص الذي تُنتجه هذه النماذج حول تلك الصورة. وعندما تهلوس النماذج فإنها تميل إلى البناء على الخطأ الأولي، في ظاهرة تشبه كرة الثلج وتسمى “الهلوسة التراكمية”، حيث تتضخم الهلوسة الأولى مع استمرار النموذج في إنتاج مزيد من النصوص التي تستند إلى المعلومة الخاطئة.
وقد عرض تانغ وزملاؤه في دراستهم مثالاً على هلوسة تراكمية للنموذج المفتوح المصدر “LLaVA-1.5″، حيث طُلب من النموذج وصف صورة لمشهد شتوي يظهر فيه جدول ماء يمر عبر غابة. في البداية، قدّم النموذج وصفاً دقيقاً، لكنه ما لبث أن بدأ يهلوس، قائلاً إن الصورة تُظهر “جسراً خشبياً صغيراً” فوق الجدول. ثم توسّع في هذه الهلوسة الأولية، مقدماً تفاصيل دقيقة عن الجسر من قبيل “على درابزين الجسر نقوش تشبه أوراق الأشجار وحبات الصنوبر، مما يضفي على المشهد الشتوي سحراً ريفياً”.
مثال على هلوسة أولية وتراكمية أنتجها النموذج مفتوح المصدر “LLaVA-1.5″، وهو نموذج لغوي كبير متعدد الوسائط.
اكتشف الباحثون أن معظم حالات الهلوسة هي هلوسات تراكمية. وقد اختبروا ثلاثة نماذج لغوية كبيرة متعددة الوسائط هي “LLaVA-1.5-7B” و”Video-LLaVA-7B” و”EDVT” باستخدام مجموعات بيانات معيارية، ووجدوا أن الهلوسات التراكمية تحدث بمعدل يزيد عن الهلوسات الأولية بمقدار أربعة أضعاف. ومن خلال تقليل الأخطاء الأولية، يمكن تقليص العدد الإجمالي لحالات الهلوسة بنسبة كبيرة.
طريقة عمل الأداة “FarSight“
هناك عدة أساليب أخرى طُوِّرت لتقليل الهلوسات التي تنتجها النماذج اللغوية الكبيرة متعددة الوسائط، مثل التحقق من صحة المعلومات التي تنتجها النماذج باستخدام مصادر من الإنترنت، أو اعتماد أساليب مختلفة لضبط النماذج بدقة. لكن هذه الأساليب لا تعالج الأسباب الجذرية لتلك الأخطاء.
حدد الباحثون في دراستهم سببين رئيسيين للهلوسة. الأول هو تشتت الانتباه، حيث يركز النموذج على العناصر اللغوية الثانوية، التي قد تكون علامات ترقيم أو عناصر أخرى غير أساسية في النص.
أما السبب الثاني فهو ما يُعرف بتلاشي المعلومات الموضعية، حيث يقل تركيز النموذج على العناصر البصرية المستخرجة من الصورة كلما طالت الفقرة النصية التي ينتجها، ما يؤدي إلى نسيان تفاصيل الصورة.
يوضح الشكل (a) حالة تشتت الانتباه، حيث يركز النموذج على العناصر الثانوية مثل علامات الترقيم والأرقام. وعند إضافة الأداة “FarSight” إلى النموذج، يتحسن تركيزه على العناصر ذات الصلة، أي الكلمات المهمة في النص. ويُبيّن الشكل (b) تلاشي المعلومات الموضعية، حيث يقّل تركيز النموذج على المعلومات البصرية كلما زاد طول المقطع النصي الذي يُنتجه. أما الشكل (c) فيُظهر تأثير الأداة “FarSight” على الحالتين من خلال تقليل التركيز على العناصر الثانوية، مما يؤدي إلى تحسين دقة الإجابة.
يقول عمران رزاق، الأستاذ المساعد في علم الأحياء الحاسوبي في جامعة محمد بن زايد للذكاء الاصطناعي والمشارك في تأليف الدراسة، إن الأداة “FarSight” تعالج مشكلة تلاشي المعلومات الموضعية من خلال “تقليل تركيز النموذج على العناصر غير ذات الصلة، مما يساعده على مواصلة التركيز على التفاصيل البصرية أثناء إنتاج مقاطع نصية طويلة”.
وتقوم الأداة “FarSight” بذلك عن طريق تعديل ما يُعرف بالقناع السببي، وهو عنصر يُستخدم لتحديد كيفية استخدام النماذج للعناصر اللغوية أثناء توليد النصوص. ويتخذ القناع السببي شكل مصفوفة تمثّل الطريقة التوليدية التتابعية التي تُنتج بها النماذج النصوص، أي توليد العناصر اللغوية الجديدة بناءً على العناصر التي سبقتها.
تشير الزاوية العلوية اليمنى في القناع السببي عادةً إلى العناصر اللغوية المستقبلية في تسلسل النص، وهي لا تحظى بأي انتباه لأن النماذج مُصممة لتجاهل العناصر اللغوية المستقبلية أثناء توليد النص.
لكن الأداة “FarSight” تستخدم هذه الزاوية بطريقة مختلفة. فبدلاً من حجبها عن الانتباه، تُوظف الأداة مفهوم “سجل الانتباه”، الذي يُخصص قدراً أكبر من الانتباه للعناصر اللغوية المهمة ويُقلل من الانتباه للعناصر الشاذة، مما يساعد النموذج على تذكر الروابط بين العناصر المتباعدة في النص وتحسين دقة التحديد البصري.
تحسين أداء النماذج اللغوية الكبيرة متعددة الوسائط بمساعدة الأداة “FarSight“
قيّم الباحثون أداء عدد من النماذج اللغوية الكبيرة متعددة الوسائط مع إضافة الأداة “FarSight” وبدونها، وذلك باستخدام معايير تقييم خاصة بالصور ومقاطع الفيديو.
على المعيار “CHAIRs” المصمم لقياس عدد الهلوسات التي تنتجها هذه النماذج، أدى استخدام الأداة “FarSight” مع النموذج “LLaVA-1.5” إلى تقليل الهلوسات بنسبة 6.4 بالمائة. كما أدى ذلك إلى تحسين أداء النموذج بأكثر من نقطتين مئويتين في مهام شاملة وعامة للإجابة عن أسئلة حول الصور.
ولم تقتصر التحسينات التي حققتها الأداة “FarSight” على النموذج “LLaVA-1.5” فقط، بل شملت أيضاً نماذج أخرى اختُبرت باستخدام الأداة “FarSight”، من بينها “InstructBLIP” و”Video-LlaVA”، حيث سجلت كلها تحسناً في معايير تقييم الهلوسات.
كما اختبر الباحثون أداء النماذج في مهام الإجابة عن الأسئلة المتعلقة بمقاطع الفيديو، ووجدوا أن الأداة “FarSight” ساهمت في تحسين الأداء على ثلاثة معايير تقييم، من بينها المعيار “MSVD-QA”، حيث تحسن أداء النماذج بنسبة تجاوزت نقطتين مئويتين.
ويؤكد الباحثون في ختام دراستهم أن نتائج التقييمات التي أجروها أظهرت أن الأداة “FarSight” “فعالة في تقليل الهلوسات في الحالات المنظمة وغير المنظمة على حد سواء”.
باحثون من جامعة محمد بن زايد للذكاء الاصطناعي يطورون نموذج ’EarthDial‘ المصُمّم لمعالجة البيانات الجيومكانية والقادر على.....
باحثون من جامعة محمد بن زايد للذكاء الاصطناعي يطورون نهجاً جديداً سيعزز من كفاءة تقنية الرؤية الحاسوبية.....
باحثون من جامعة محمد بن زايد للذكاء الاصطناعي يُطورون نظام "LLMVoX" الجديد الذي يتيح لأي نموذج لغوي.....