في السنوات الأخيرة، قام مطورو الذكاء الاصطناعي بتطوير وتحسين ما يُعرف بنماذج الذكاء الاصطناعي الأساسية: وهي نظم كبيرة لتعلم الآلة تدرب على مجموعات بيانات ضخمة وواسعة بهدف منحها القدرة على القيام بمجموعة متنوعة من المهام. ويعتبر جي بي تي من أوبن إيه آي وبيرت من جوجل مثالين لنماذج الذكاء الاصطناعي الأساسية المصممة لمعالجة اللغة الطبيعية. وبدوره يعتبر نموذج ’سام‘ Segment Anything Model (SAM) من مِيتَا، نموذج ذكاء اصطناعي أساسي طُورَّ بهدف تجزئة أو تحديد الأشياء في أي نوع من أنواع الصور أو مقاطع الفيديو.
تتكون مجموعة البيانات التي استخدمت لتدريب نموذج ’سام‘، المثير للإعجاب بحجمه وأدائه القوي، من 11 مليون صورة وحزمة تتكون من أكثر من مليار قناع لتحديد حدود الأشياء في الصور. وتصف مِيتَا النموذج بأنه يتمتع “بفكرة عامة عن ماهية الأشياء”، ويمكنه تحديد الأشياء التي لم يسبق له التعرف عليها من قبل، وهي القدرة المعروفة باسم التعميم من دون تدريب مسبق. ورغم الأداء القوي لنموذج ’سَام‘ بالنسبة للصور العادية، إلا أنه يواجه صعوبات عندما يتعلق الأمر بالصور من مجالات متخصصة مثل الطب.
وبهدف رفع هذا التحدي وتعزيز قدرات نموذج ’سَام‘، طور علماء في جامعة محمد بن زايد للذكاء الاصطناعي مؤخراً طريقة فعالة تستفيد من إمكانات هذا النموذج الواسعة مع تحسين أدائه بشكل كبير فيما يتعلق بالصور الطبية. يذكر أن البحث، الذي قاده تشاو تشين، طالب الدكتوراه في قسم الرؤية الحاسوبية في الجامعة نفسها، رُشِّح لنيل جائزة أفضل ورقة بحثية خلال فعاليات المؤتمر الدولي السابع والعشرين لحوسبة الصور الطبية والتدخل المدعوم بالحاسوب الذي عقد في أكتوبر بمدينة مراكش في المغرب.
تختلف الصور الطبية، مثل تلك التي يتم إنتاجها بتقنيات التصوير المقطعي المحوسب والتصوير بالرنين المغناطيسي، تماماً عن البيانات التي تم تدريب نموذج ’سَام‘ عليها، وعن هذا الاختلاف أوضح تشين أن “أداء نموذج ’سَام‘، عند استخدامه لقراءة الصور الطبية يتبين بوضوح مدى الفرق الكبير في أدائه عند التعامل مع صور اعتيادية مقارنة بأدائه مع صور تخصصية طبية”.
الملاحظ هو أن إعادة تدريب نموذج ’سَام‘ – أو أي نموذج ذكاء اصطناعي أساسي – بهدف تحسين أدائه على مجموعة فرعية متخصصة من الصور سيستغرق وقتاً وسيكون مكلفاً. كما سيتطلب الأمر – يضيف تشين – مجموعة كبيرة من البيانات من الصور الطبية التي تتسم بندرتها أكثر من الصور الاعتيادية.
تقنية أخرى لتحسين أداء مثل هذه النماذج، تعرف بتقنية الضبط الدقيق [Fine Tuning]، غير أن هذه التقنية بحسب الدراسة التي أنجزها تشين وزملاؤه هي غير فعالة تماماً، ولن “توظف المعرفة (الطبية) التخصصية بالكامل“. يشار، في هذا السياق، إلى أن فريقا من العلماء من ’جامعة تورنتو‘ و’جامعة نيويورك‘ و’جامعة ييل‘، طور – في وقت سابق هذا العام – ما أطلقوا عليه اسم MedSAM (نموذج سام الطبي)، والذي يستخدم تقنية الضبط الدقيق على أحد مكونات نموذج ’سام‘ التي تلعب دوراً في تحديد حدود الأشياء في الصور. وقد حقق نموذجMedSAM بفعل هذه التقنية تحسناً كبيراً في أدائه مقارنة بنموذج ’سام‘ العام، وأدى إلى تحسن في الأداء بنسبة تزيد عن 22% عبر مجموعة متنوعة من مهام تجزئة أو تحديد الأشياء. ورغم ما حققه نموذجMedSAM من تطور في أدائه، إلا أنه فشل في تحديد الأشياء بشكل صحيح فيما يقرب من 19% من الصور التي عُرضت عليه.
ولمحاولة معالجة هذه المشكلة، لجأ تشين وزملاؤه إلى تقنية مختلفة تعتمد على ما يسمى بالمحول [adapter]. وتستخدم هذه التقنية غالباً في مجال معالجة اللغة الطبيعية، ولكن لم يتم استخدامها على نطاق واسع في مجال الرؤية الحاسوبية. فبدلاً من إعادة تدريب نموذج كامل، تجعل المحولات [adapters] من الممكن تدريب جزء أصغر من النموذج لمهمة محددة. ويقوم هذا النهج بـ “تجميد” ضوابط [Parameters] نموذج الذكاء الاصطناعي الأساسي أثناء عملية تدريب طبقات منظومة المحول، وهي فعالة لأنه يتم تدريب جزء صغير فقط من النموذج.
يطلق تشين وزملاؤه على ابتكارهم اسم DB-SAM، وهو اختصار لـ (نموذج سام الثنائي التفريع) Dual-Branch SAM، حيث يتألف من فرع واحد يحتوي على محول رؤية (ViT)، وآخر يحتوي على شبكة عصبونية الالتفافية (CNN).
تمتاز كل من محولات الرؤية (ViTs) والشبكات العصبونية الالتفافية (CNNs) بنقاط قوتها الخاصة؛ فالأولى تتميز بقدرتها على معالجة السياق العام للمعلومة من الصور، أما الثانية فتمتاز بقدرتها على معالجة السياق الخاص للمعلومة، ثم يتم دمج المعلومات من كلا الفرعين في نهاية العملية. ويوضح تشين أن هذه العملية ليست هينة ويقول: “ليس من السهل دمج المعلومات من المحولات والشبكات العصبونية الالتفافية، ولذا قمنا بتطوير آلية تدمج بين الميزتين.”
قام تشين وزملاؤه بتقييم أداء نموذج DB-SAM باستخدام مجموعة كبيرة من الصور ثنائية الأبعاد وأخرى ثلاثية الأبعاد تم تجميعها من 30 مجموعة بيانات طبية متاحة للعموم. وقد تفوق DB-SAM على كل من SAM وMedSAM إلى حد كبير. ووفقاً لمقياسين معروفين باسم معامل تشابه النرد (DSC) والمسافة السطحية المعيارية (NSD)، أظهر نموذج DB-SAM أداء أقوى في المهام الخاصة بتقسيم الصور ثلاثية الأبعاد بنسبة تراوحت بين 6% و8%، مقارنة بـنموذج MedSAM؛ أما فيما يخص تجزئة الصور ثنائية الأبعاد، فقد كان أداء نموذج DB-SAM أفضل وتراوحت بين 4.8% (DSC) و8.6% (NSD).
وعن هذه النتائج قال تشين: “عندما بدأت هذا البحث، لم أتخيل أبداً أنه يمكننا تحقيق مثل هذا الأداء الجيد. ولكن بالطبع كانت هناك أيضا حالات فشل ومن المثير للاهتمام دراستها لأنها يمكن أن تساعدنا في تصميم نظم أكثر تطوراً لتحسين النموذج في المستقبل.”
يتصور تشين مستقبلاً تلعب فيه نماذج الذكاء الاصطناعي الأساسية دوراً أكبر في مجالات متخصصة مثل الطب – ويقول: “هناك الكثير من النماذج التي تم تصميمها لغرض واحد، على سبيل المثال لعضو واحد في الجسم أو مرض واحد، لكن طموحنا وما نريد تحقيقه هو تطوير نماذج أساسية يمكنها التعامل مع جميع أعضاء جسم الإنسان”.
وعن فائدة هذا النوع من النماذج، يوضح تشين أنه من المفيد للمستشفيات أن يكون لديها نموذج واحد للاستخدام في التطبيقات السريرية، حيث من المرجح أن يكون النموذج الكبير الواحد ذو جدوى أكبر مقارنة مع عدة نماذج تخصصية؛ مضيفاً أن النماذج الأساسية تتمتع كذلك بميزة أنها تتحسن من خلال التعرض لأنواع مختلفة من البيانات. كما تحتوي صور أعضاء الجسم على معلومات تكميلية حول المرض وكيفية تقسيم الصور.
بالنسبة لتشين، ربما تكون أهم خلاصة خرج بها من هذا العمل تتعلق بالطريقة التي اتبعها وزملاؤه في التصميم وسهولة دمج المحولات واستخدامها مع نماذج الذكاء الاصطناعي الأساسية – ويقول: “ستكون هناك دائما نماذج أساسية أفضل، ويمكننا تصميم محولات جديدة للاستخدام معها”.
علماء من جامعة محمد بن زايد للذكاء الاصطناعي يطورون طريقة جديدة ستساعد الأطباء على توقع مسار تطور.....
طريقة الجديدة لتعلم الآلة تستطيع تحليل السجلات الطبية الإلكترونية، وقد تساعد الأطباء في تحديد المرضى المعرضين لخطر.....
عرفت كفاءة النماذج الكبيرة متعددةِ الوسائط تطوراً ملحوظاً خلال السنوات الأخيرة، حيث إنها تعززت بقدرات جمعت بين.....