عندما يُطلب من رضا إمام، طالب الدكتوراه في جامعة محمد بن زايد للذكاء الاصطناعي، أن يقدّم مثالاً واقعياً يوضح سبب فوزه بجائزة أفضل ورقة بحثية في مؤتمر “فهم وتحليل الصور الطبية” لعام 2025، الذي انعقد في مدينة ليدز بالمملكة المتحدة، فإنه يضرب مثالاً بصورة لشبكية العين تشوهت نتيجة حركة بسيطة لرأس المريض ويشرح قائلاً: “مجرد حركة بسيطة من المريض يمكن أن تشوّه الصورة بدرجة تكفي لإرباك نموذج الذكاء الاصطناعي، فيصنّف شبكية مريضة على أنها سليمة، أو العكس”.
وقد أعدّ إمام هذه الورقة البحثية، التي جاءت بعنوان “موثوقية النماذج اللغوية البصرية الطبية: هل يمكن تعميمها حقاً؟“، بالتعاون مع الباحث المساعد روفايل مارو، والدكتور محمد يعقوب، الأستاذ المساعد في قسم الرؤية الحاسوبية، وكلاهما من جامعة محمد بن زايد للذكاء الاصطناعي. وقدمت الورقة إضافتين جديدتين لهذا المجال، وهما مجموعة البيانات المعيارية “MediMeta C” لاختبار قدرة النماذج على التعامل مع الصور المشوهة، والنموذج المحسن لمعالجة هذه الصور “RobustMedCLIP” (ويشار إليه اختصاراً بالحروف RMC). ومن خلال هاتين الإضافتين، كشفت الورقة البحثية عن إخفاق أبرز النماذج اللغوية البصرية الطبية في التعامل مع صور لا تبدو مثالية كما في الكتب، ثم قدمت حلاً لهذه المشكلة.
في السنوات القليلة الماضية، أبهرت النماذج متعددة الوسائط الأطباء من خلال تحقيق نتائج تضاهي خبراء الأشعة في تحليل صور الأشعة السينية الصدرية والشرائح المجهرية. لكن هذه الصور كانت “في الغالب مثالية”، كما يقول إمام. أما في المستشفيات على أرض الواقع، فهناك تشوهات في الصور بسبب حركة المرضى وضعف الإضاءة وضغط الصور الملتقطة بواسطة أجهزة قديمة، وهي أشبه بالتشويش في خط الهاتف، وجميعها مبينة في الشكل أدناه. ولهذا خلص إمام إلى أن “تحقيق دقة عالية عند تحليل صور نظيفة لا يعني بالضرورة موثوقية النموذج، لأن أداء بعض أفضل النماذج تراجع كثيراً عند وجود تشوهات طفيفة في الصور”.
لقياس مقدار التفاوت في الأداء، أنشأ إمام مجموعة بيانات معيارية جديدة استوحى فكرتها من مجموعة بيانات الرؤية الحاسوبية “ImageNet C”، التي تُستخدم لاختبار قدرة النماذج العادية على تحليل الصور المشوهة بسبب الضباب والصقيع والاهتزاز. تتضمن المجموعة الجديدة “MediMeta‑C” صوراً ملتقطة بخمس وسائل تصوير طبية، بدءاً من المجهر الخلوي ووصولاً إلى التصوير المقطعي لشبكية العين، وقد تعرضت كل واحدة منها لسبعة أنواع من التشوهات (التشويش الجاوسي، وتشويه الملح والفلفل، والتشوه الناتج عن الحركة، والتشوه الناتج عن التكبير، وتغير درجة السطوع، وتغير درجة التباين، والتشوه بالبكسلة) بخمسة مستويات لكل نوع منها. وهذا وحده يعطي 175 مجموعة اختبار مختلفة.
ثم دمج إمام مجموعة البيانات “MediMeta C” مع مجموعة سابقة من الصور منخفضة الدقة التي تُستخدم في الاختبارات، وهي “MedMNIST C”، لينشئ بذلك ما يسميه “مجموعة الاختبار الشاملة” للنماذج اللغوية البصرية الطبية.
عند اختبار النماذج الأساسية على هذه المجموعة المدمجة، زادت نسبة الخطأ في نتائجها بأكثر من الضعف. وكانت النتائج كارثية في تحليل صور قاع العين، حيث أخفقت بعض النماذج بسبب تغير بسيط في درجة التباين، مما يشير إلى أن احتمالات الخطأ في برامج فحص اعتلال الشبكية لمرضى السكري المستخدمة في الصيدليات والعيادات الريفية كبيرة جداً.
ولعل أكثر النتائج إثارة للقلق كانت في السؤال البحثي الثالث في الورقة: هل تعني دقة النموذج في تحليل الصور النظيفة إمكانية الاعتماد عليه؟ فقد وجد إمام أن الدقة في تحليل الصور النظيفة لا تعني الموثوقية على أرض الواقع، خاصة في مجال الذكاء الاصطناعي الطبي. ففي بعض الأحيان، كان النموذج الذي حقق أفضل النتائج في تحليل الصور غير المشوَّهة يسجل أداءً أسوأ من النماذج الأخرى عند وجود تشوه في الصور.
بدلاً من إعادة بناء النماذج من الصفر، فضّل إمام حلاً جراحياً دقيقاً، وهو تحسينها بطريقة التكيف منخفض الرتبة وباستخدام عدد قليل من الأمثلة. في هذه الطريقة يجري تحديث نحو 1% فقط من معاملات النموذج (وتحديداً معاملات التكيف منخفضة الرتبة داخل طبقات الانتباه)، وذلك باستخدام عينة صغيرة وشديدة التنوع من الصور النظيفة من كل وسيلة تصوير طبية. وتستغرق عملية التدريب أقل من ساعتين على وحدات معالجة رسومية منخفضة التكلفة، وهو ما يصفه إمام بأنه “تغيير جذري بالنسبة للمستشفيات ذات الميزانيات المحدودة في مجال تكنولوجيا المعلومات”.
حقق النموذج الجديد “RobustMedCLIP” النتائج التالية:
المقياس |
النموذج الأساسي BioMedCLIP | النموذج الجديد RobustMedCLIP |
متوسط الخطأ في حالة الصور المشوهة |
112 % (المجهرالخلوي) |
70 % |
متوسط الدقة في حالة الصور النظيفة | 8 % (المجهر الخلوي) |
80 % |
وأكثر ما يلفت الانتباه هو أن النموذج “RMC” حقق نفس مستوى أداء أحدث النماذج، أو حتى تفوق عليها، عند اختباره على صور نظيفة، بينما خفّض نسبة الخطأ بشكل كبير في حالة الصور المشوهة، ليقلص بذلك الفجوة الكبيرة بين الدقة والموثوقية.
فما سر هذه الفاعلية؟ يعتقد إمام أن تنوع البيانات التي يتدرب عليها النموذج أهم من حجمها. فوجود صور ملتقطة بمجموعة واسعة من أجهزة التصوير يعلّم النموذج أن يستبعد أنماط التشوهات التي تختلف كثيراً من جهاز لآخر، مع التركيز على فهم البنية التشريحية الفعلية.
من ناحية أخرى، أثارت هذه الورقة البحثية مجدداً الجدل حول بنية النماذج، حيث تتفوق محولات الرؤية باستمرار على الشبكات المتبقية (ResNet) من حيث الموثوقية. فإمام يؤكد أن المحولات تلتقط السياق العام للصورة، بينما تعتمد الشبكات المتبقية على أجزاء صغيرة يسهل أن تتشوه.
يأمل إمام أن تصبح مجموعة البيانات “MediMeta C” أساسية لاختبار الذكاء الاصطناعي الطبي بحيث لا يُستخدم في تشخيص الأمراض نموذج لا يمكنه التعامل مع تشوه ناتج عن تغير درجة السطوع أو الحركة أو غير ذلك من التشوهات. كما يحثّ الشركات على نشر درجة موثوقية نماذجها إلى جانب درجة دقتها، ويدعو الجهات التنظيمية إلى طلب ما يثبت أن تلك النماذج فعالة في التعامل مع صور المستشفيات الحقيقية.
أما بالنسبة للشركات الناشئة في مجال الذكاء الاصطناعي الطبي، فالدرس بسيط: درّب نموذجك بذكاء، ولا تعتمد فقط على حجم البيانات. فالعيادات الريفية التي لديها صور أشعة صدرية من أجهزة تصوير قديمة تحتاج إلى نماذج مدربة على مصادر متنوعة، وليس على عدد هائل من الصور المأخوذة من مستشفى كبير واحد.
ويتحدث إمام عن رؤيته للسنوات الخمس المقبلة، حيث سيجري اختبار كل نموذج ذكاء اصطناعي طبي للتأكد من قدرته على التعامل مع الصور المشوهة قبل نشره، مع تحديثه باستمرار دون الحاجة لإعادة تدريبه إلا في الحدود الدنيا، وتقييمه من حيث الموثوقية أولاً ومن ثم الدقة. وما نحتاجه الآن هو اعتماد معايير قياس قدرة النماذج على التعامل مع الصور المشوهة على مستوى الصناعة بكاملها، إلى جانب تحول في الثقافة، وهو ما يلخصه إمام بقوله: “إذا تبنى الأطباء معيارنا غداً فسيعود ذلك بالنفع على المرضى، لأننا سنتوقف عن الثقة في النماذج اللغوية البصرية الطبية المدربة على الصور النظيفة فقط”.
وإلى أن يتحقق ذلك، في المرة القادمة التي يشير فيها برنامج تحليل الصور بالذكاء الاصطناعي لدى طبيب عيونك إلى وجود آفة في إحدى عينيك، تذكّر أن تلك الخوارزميات نادراً ما ترى صوراً مشوهة ومنخفضة التباين، وتذكّر أن هناك طالب دكتوراه في أبوظبي مصمم على تغيير هذا الواقع.
جامعة محمد بن زايد للذكاء الاصطناعي تنطلق في عام أكاديمي تاريخي باستقبال 403 من الطلاب الجدد ومن.....
ورقة الدكتور سلمان خان وفيشال نيدونغادي تفوز بجائزة أفضل ورقة بحثية خلال فعاليات "المؤتمر الدولي لتعلم الآلة".....
"ConceptAligne": نظام جديد قد يساعد فنافي الفن الرقمي على تنفيذ التعديلات الفنية بدقة أكبر.