يعتمد الأطباء بشكل كبير على الصور الطبية مثل الأشعة السينية للمساعدة في تشخيص الحالات إلى جانب إجراء الفحوصات الطبية، وطلب التحاليل المخبرية، ومراجعة التاريخ الطبي للمرضى. إن العمل على بناء النماذج اللغوية-البصرية لدعم هذه العملية جار على قدم وساق، إلا أن الأنظمة الحالية لا تزال تفتقر إلى الدقة فعند مطالبتها بتحليل الصور الطبية، قد تُصدر، حتى أفضل النماذج المتاحة، إجابات واثقة لكنها غير دقيقة، أو تسيء تفسير الصور في بعض الحالات، وفي حالات أخرى، تُخطئ النماذج ببساطة في تفسير الصور.
ومن التقنيات التي يمكن استخدامها لتحسين أداء هذه النماذج ما يُعرف باسم التوليد المعزز بالاسترجاع حيث تتيح هذه التقنية للنموذج استرجاع معلومات ذات صلة من قاعدة بيانات واستخدامها لدعم تحليله، بدلاً من الاعتماد فقط على المعرفة التي اكتسبها خلال مرحلة التدريب. ورغم أن فكرة التوليد المعزز بالاسترجاع تبدو بسيطة من حيث المبدأ، إلا أن تطبيقها عمليًا يُعد تحديًا، نظرًا لصعوبة تحديد المعلومات ذات الصلة بدقة، والتمييز بينها وبين المعلومات غير المفيدة.
طوّر باحثون من جامعة محمد بن زايد للذكاء الاصطناعي ومؤسسات أكاديمية أخرى نهجًا جديدًا يُمكن أن يُسهم في تحسين دقة نماذج اللغوية-البصرية المصممة لتحليل الصور الطبية، ويحمل اسم “النقل الأمثل متعدد الوسائط عبر الاسترجاع المرتكز” (MOTOR)، والذي يعتمد على دمج تقنية التوليد المعزز بالاسترجاع مع خوارزمية تُعرف باسم النقل الأمثل. وتقوم هذه الطريقة باسترجاع وترتيب البيانات النصية والبصرية ذات الصلة بالصورة الطبية المدخلة، ثم تغذيتها للنموذج لتحسين جودة التحليل.
اختبر الباحثون النماذج اللغوية-البصرية باستخدام نهج النقل الأمثل متعدد الوسائط عبر الاسترجاع المرتكز وبدونه، وذلك على مجموعتين من البيانات الطبية، ووجدوا أن استخدام النهج أدى إلى تحسين متوسط الأداء بنسبة 6.45%. وقدّم الفريق نتائج دراسته خلال المؤتمر الدولي الثامن والعشرين لحوسبة الصور الطبية والتدخل المدعوم بالحاسوب الذي عُقد في مدينة دايجون، كوريا الجنوبية.
شارك في إعداد الدراسة كل من: ميّ شعبان، توصيفة جان سليم، فيجاي رام بابينيني، ومحمد يعقوب.
تحديات تحليل الصور الطبية
عادةً ما تُدرّب النماذج اللغوية-البصرية العامة على مجموعات بيانات ضخمة وغير متخصصة، يتم جمعها غالبًا من الإنترنت. وتُكسب هذه البيانات النماذج قدرات واسعة على تفسير أنواع متعددة من الصور إلا أن هذه النماذج لا تؤدي بشكل جيد في البيئات الطبية، حيث يتطلب التحليل دقة عالية وتخصصًا عميقًا.
من الطرق التي يمكن من خلالها تحسين أداء النماذج هو تدريبها أو ضبطها باستخدام مجموعات بيانات متخصصة غير أن الوصول إلى مثل هذه البيانات في المجال الطبي يُشكل تحديًا كبيرًا، نظراً إلى أن لوائح خصوصية المرضى غالبًا ما تمنع استخدام الصور الطبية في تدريب أنظمة الذكاء الاصطناعي، كما أن المستشفيات تتردد في مشاركة بياناتها ضمن مجموعات كبيرة. أضف إلى ذلك أن عمليات التدريب والضبط تتطلب موارد حسابية كبيرة وتكلفة مرتفعة.
يمكن لتقنية التوليد المعزز بالاسترجاع أن تُسهم في تجاوز كل هذه التحديات. تقول ميّ شعبان، طالبة الدكتوراه في تعلم الآلة بجامعة محمد بن زايد للذكاء الاصطناعي وقائدة الدراسة المقدّمة في مؤتمر حوسبة الصور الطبية والتدخل المدعوم بالحاسوب “مع التوليد المعزز بالاسترجاع، لسنا بحاجة إلى مجموعات بيانات ضخمة كما هو الحال في التدريب المسبق، لكن من الضروري أن تكون البيانات المسترجعة ذات صلة مباشرة بالسياق الطبي.”
طريقة عمل نهج “النقل الأمثل متعدد الوسائط عبر الاسترجاع المرتكز”
عند إدخال طلب إلى النموذج اللغوي-البصري يستخدم النقل الأمثل متعدد الوسائط عبر الاسترجاع المرتكز، يقوم النظام باسترجاع صور مشابهة وبيانات طبية مرتبطة بها. ويتم تعزيز الصلة السريرية لهذه البيانات المسترجعة من خلال تطبيق ما يُعرف التوصيف النصي المرتكز، وهي أوصاف نصية توضّح مناطق محددة داخل الصورة. فعلى سبيل المثال، في صورة أشعة سينية لمريض مصاب بالتهاب رئوي، يتم تحديد منطقة الإصابة في الرئة باستخدام إطار مرئي، ويُرفق بها توصيف نصي لتلك المنطقة بدقة. كما يستخدم هذا النهج خوارزمية النقل الأمثل لترتيب البيانات المسترجعة وفقًا لمدى ارتباطها بالصورة، مما يُسهم في تعزيز قدرة النموذج اللغوي-البصري على التحليل والاستنتاج.
استخدم الباحثون قاعدة البيانات الخارجية MIMIC-CXR-JPG، والتي تحتوي على صور أشعة سينية للصدر مقترنة بتقارير مفصلة من أطباء الأشعة.
اعتمدت ميّ شعبان في المحاولة الأولى لبناء النهج الجديد على نموذج لغوي-بصري لتوليد توصيفات نصية غير مرتكزة للصور الطبية، لكن هذه التوصيفات لم تكن دقيقة أو مفصلة بما يكفي. أما التوصيفات النصية المرتكزة فهي أكثر تحديدًا، إذ تساعد النموذج على التركيز على المناطق الأكثر أهمية في الصورة.

يجمع النهج المطوّر في جامعة محمد بن زايد للذكاء الاصطناعي ومؤسسات أخرى بين تقنية التوليد المعزز بالاسترجاع وخوارزمية النقل الأمثل، بهدف تحسين أداء النماذج اللغوية-البصرية في تحليل الصور الطبية.
هذه هي المرة الأولى التي يتم فيها استخدام إطار عمل التوليد المعزز بالاسترجاع جنبًا إلى جنب مع إعادة الترتيب متعددة الوسائط لتوفير سياق نصي وبصري إضافي للنموذج اللغوي-البصري في المجال الطبي.
كانت الأبحاث السابقة تعتمد على أساليب أخرى مثل خوارزمية تشابه جيب التمام ، وهي خوارزمية قياسية تُستخدم لاسترجاع السياق المرتبط بالنماذج. لكن ميّ شعبان أوضحت أنه في هذه الدراسة، هي وزملاؤها كانوا بحاجة إلى نهج “أعمق” من الخوارزميات التقليدية لضمان أن تكون المعلومات المسترجعة مناسبة وذات صلة دقيقة.
ركز الباحثون على صور الأشعة السينية لأنهم تمكنوا من الوصول إلى مجموعة بيانات تحتوي على هذه الصور إلى جانب التصنيفات الطبية المقابلة لها. ومع ذلك، يمكن تكييف النهج الجديد ليعمل على أي مجموعة بيانات طبية تضم صورًا وتوصيفات نصية مرتبطة بها.
النتائج والخطوات التالية
اختبر الباحثون النهج الجديد على مجموعتين من البيانات الطبية، ووجدوا أنه تفوق على الأساليب القياسية وتقنية التوليد المعزز بالاسترجاع. فقد حسّن الأداء على مجموعة بيانات MIMIC-CXR-VQA بنسبة 3.77%، وعلى مجموعة بيانات Medical-Diff-VQA بنسبة 9.12%.
كما عرض الباحثون التوصيفات النصية المرتكزة التي أنتجها النهج الجديد على اختصاصي أشعة، وتبيّن أن 74% من هذه التوصيفات كانت دقيقة. ومن خلال تحليل يدوي لعينة من البيانات، وجد الفريق أن النظام قدّم توقعات صحيحة في أكثر من 98% من الحالات.
بالنسبة لميّ شعبان وفريقها، لا يقتصر استخدام الذكاء الاصطناعي في الرعاية الصحية على تطوير خوارزمية مبتكرة، بل يتمحور حول كيفية تشغيل نظام عملي في بيئة سريرية بحيث يعود بالنفع على المجتمع بأكمله. وتقول شعبان: “الأمر يتعلق بكيفية تشغيل نظام يمكن أن يعمل في السياق الطبي الفعلي، مع مراعاة من سيستخدمه والقيود الموجودة في الموارد داخل هذه البيئات.”
وتضيف: “أنا مهتمة باستخدام تقنيات عملية تتيح تشغيل النماذج دون الحاجة إلى موارد حسابية ضخمة أو مجموعات بيانات واسعة النطاق. ففي المناطق الأقل تطورًا حيث تكون البيانات محدودة، سنحتاج إلى الاعتماد على تقنيات مثل التوليد المعزز بالاسترجاع.”
تم تقديم الجائزة إلى البروفيسور لي سونغ، الشريك المؤسس والرئيس التنفيذي للتكنولوجيا في GenBio AI وأستاذ تعلم.....
ترحب أول جامعة في العالم مكرَّسة للذكاء الاصطناعي بالطلاب المتميزين من مختلف أنحاء العالم للانضمام إلى برامجها.....
طالبان من جامعة محمد بن زايد للذكاء الاصطناعي يدفعان بحدود تطوير بحوث الرؤية الحاسوبية في شركة "ميتا"