هناك ما يقرب من 11 ألف نوع من الطيور التي تتباين في أشكالها وأحجامها. فمعظمها يطير، وكثير منها يسبح، بينما يلازم بعضها اليابسة. وعلى خلاف العديد من فصائل الحيوانات الأخرى، تنتشر الطيور في جميع أنحاء العالم تقريباً، من السواحل المتجمدة في القارة القطبية الجنوبية إلى صحارى شبه الجزيرة العربية. ويُعد هذا التنوع الكبير أحد أبرز أسباب انجذاب المهتمين بمراقبتها. ولكن التمييز بين أنواعها المختلفة قد يكون أمراً بالغ الصعوبة، حتى بالنسبة للخبراء المتخصصين.
وفي هذا السياق، تمتلك النماذج متعددة الوسائط إمكانات واعدة لمساعدة العلماء والعاملين في المجال البيئي، وحتى هواة مراقبة الطيور، في التعرّف بدقة على أنواعها المختلفة. إلا أن النماذج الحالية ما زالت تواجه صعوبات في التعامل مع هذا التنوع الواسع للطيور. وتزداد هذه الصعوبة عند التعامل مع الأنواع النادرة أو المحلية، نظراً لعدم تدريب النماذج على السمات الجسدية والصوتية الدقيقة التي تفصل بين الأنواع المتقاربة. كما تميل هذه النماذج إلى التنبؤ اعتماداً على مدى شيوع الأنواع في بيانات التدريب، مما يؤدي إلى انحيازها نحو الأنواع الأكثر انتشاراً.
لمعالجة هذه القيود، اتخذ باحثون من جامعة محمد بن زايد للذكاء الاصطناعي خطوة متقدمة نحو تحسين قدرة النماذج متعددة الوسائط على التعرّف على أنواع الطيور، حيث طوّروا مجموعة بيانات جديدة للتدريب، ومجموعة بيانات معيارية للتقييم، إلى جانب نموذج متعدد الوسائط قادر على تفسير الصور والتسجيلات الصوتية والنصوص معاً.
قادت هذا العمل يفهينيا كريكليفتس، خريجة برنامج الماجستير في الرؤية الحاسوبية بجامعة محمد بن زايد للذكاء الاصطناعي، وذلك في إطار أطروحتها لنيل درجة الماجستير تحت إشراف الدكتور هشام شولاكال، الأستاذ المساعد في قسم الرؤية الحاسوبية. وتؤكد كريكليفتس أن هذا الابتكار يمكن أن يكون ذا فائدة كبيرة للهيئات البيئية والمؤسسات المعنية برصد موائل الطيور والحفاظ عليها.
وقد عُرضت دراسة حول هذا العمل مؤخراً في عرض شفهي ضمن مؤتمر الأساليب التجريبية في معالجة اللغة الطبيعية 2025 الذي استضافته مدينة سوتشو الصينية، حيث اختيرت الدراسة ضمن “اختيارات كبار رؤساء المجالات”، وهو تكريم مرموق يُمنح لأفضل الأوراق البحثية المشاركة في المؤتمر.
شارك في إعداد الدراسة، إلى جانب كريكليفتس وشولاكال، كل من محمد عرفان كوربات، وسهل شاجي مولابيلي، وجنكسينغ تشو، وفهد شاباز خان، وراو محمد أنور، وسلمان خان.
يُعدّ تحديد نوع الطائر الصحيح بناءً على صورة أو تسجيل صوتي مثالاً على مشكلة التصنيف الدقيق في تعلم الآلة، وهي من التحديات الكبرى التي تواجه النماذج متعددة الوسائط، لأن هذه النماذج تُدرَّب عادةً على مجموعات بيانات عامة تفتقر إلى التفاصيل المرتبطة بالمجال التخصصي.
ومن أجل دعم جهود الحفاظ على التنوع البيولوجي وتعزيز الرصد البيئي، غالباً ما يكون من الضروري تجاوز التصنيف الدقيق التقليدي، وتوفير قدرات متعددة الوسائط قائمة على أسئلة وأجوبة خاصة بكل نوع تغطي أنماطاً متنوعة من أسئلة التعرّف والاستدلال المتعلقة بالسمات المرئية للطيور والأصوات الدالة على السلوك والموائل والعادات الغذائية وغيرها.
لمواجهة هذا التحدي، أنشأ الباحثون مجموعة متكاملة من الصور والتسجيلات الصوتية والنصوص أطلقوا عليها اسم مجموعة بيانات “MAviS”، وهي أول مورد متعدد الوسائط واسع النطاق مخصص للتعرّف الدقيق على أنواع الطيور.
وتغطي هذه المجموعة أكثر من ألف نوع من الطيور تمثل جميع العائلات الرئيسية ومختلف المناطق الجغرافية، وتضم نحو 420 ألف صورة و115 ألف تسجيل صوتي. وفي المتوسط، يوجد لكل نوع من الطيور ما يقارب 210 صور و115 تسجيلاً صوتياً، مع اختلاف هذه الأعداد من نوع إلى آخر. كما تنقسم مجموعة البيانات إلى مجموعتين فرعيتين، إحداهما مخصصة للتدريب المسبق، والأخرى للضبط الدقيق.
لإنشاء مجموعة البيانات “MAviS”، دمج الباحثون عدداً من مجموعات البيانات المفتوحة المصدر، مثل “BioCLIP” و”Tree of Life”، إلى جانب بيانات أخرى من بينها ثلاثة آلاف تسجيل صوتي لطيور نادرة قام بتنسيقها مختبر كورنيل لعلم الطيور. ويؤكد الباحثون أن هذا النهج يضمن توازناً في مجموعة البيانات من خلال الجمع بين بيانات مقدّمة من خبراء وبيانات مقدمة من عامة الناس. كما أرفق الباحثون بكل نوع نصوصاً تصف سلوك الطائر وخصائصه الشكلية والصوتية والأماكن التي يعيش فيها.
واعتمد الفريق على بناء منظومة آلية للتوصيف باستخدام نماذج متعددة الوسائط مفتوحة المصدر بهدف إثراء مجموعة الضبط الدقيق، حيث جرى ربط أمثلة الضبط الدقيق بعدة أزواج من الأسئلة والأجوبة المتعلقة بسمات مثل المظهر والصوت والموئل.
ويشرح الدكتور شولاكال أهمية هذا التوجّه قائلاً: “حتى أقوى النماذج متعددة الوسائط لا تحقق أداءً جيداً في مهام الفهم الدقيق، ولذلك كان من الضروري تصميم مجموعة بيانات مخصصة لتدريب النموذج على فهم التعليمات والاستجابة لها”.
طوّر الفريق نموذجاً متعدد الوسائط أطلق عليه اسم “MAviS-Chat”، وهو يستند إلى بنية النموذج “Mini-CPM-o-2.6” ويضم مُشفِّراً بصرياً، ومُشفِّراً صوتياً، ونموذجاً لغوياً مفتوح المصدر.
وضبط الباحثون النموذج “MAviS-Chat” بدقة باستخدام مجموعة البيانات “MAviS-Dataset”، مستفيدين من كلٍّ من مجموعة بيانات التدريب المسبق ومجموعة بيانات التدريب على فهم التعليمات والاستجابة لها. كما استخدموا تقنية تُعرف باسم التكيف منخفض الرتبة لتحسين الأداء.
وطوّر الفريق أيضاً مجموعة تقييم مرجعية اسمها “MAviS-Bench” صُمِّمت خصيصاً لاختبار أداء النماذج متعددة الوسائط في مهمة التعرّف على أنواع الطيور. وقارن الباحثون أداء النموذج “MAviS-Chat” بعدد من النماذج المفتوحة والمغلقة المصدر، من بينها “GPT-4o” و”Gemini 1.5″ والنسخة الأساسية من “MiniCPM-o-2.6″، وذلك باستخدام مجموعة التقييم “MAviS-Bench”.
وأظهرت النتائج أن النموذج “MAviS-Chat” تفوّق على النموذج الأساسي “MiniCPM-o-2.6” بفارق ملحوظ في عدة مؤشرات أداء، بل وتجاوز أداء “GPT-4o” في بعض الحالات. فوفقاً للمعيار “ROUGE-1″، حقق النموذج “MAviS-Chat” درجة 34.17 مقابل 30.55 للنموذج “GPT-4o”، بينما سجّل 54.76 وفق معيار آخر اسمه “MoverScore”، مقارنة بـ 54.03 للنموذج “GPT-4o”.
وبصورة عامة، خلص الباحثون إلى أن النموذج “MAviS-Chat” حقق أفضل النتائج بين النماذج الحالية مفتوحة المصدر، وأثبت فاعلية نهجهم في التدريب على فهم التعليمات والاستجابة لها. كما يتميّز هذا النموذج بحجمه الأصغر بكثير مقارنة بالنماذج التجارية التي شملتها المقارنة، ما يضعه في مرتبة حلٍّ وسط واعد بين النماذج العامة ذات الأداء العالي والتكلفة المرتفعة في الاستدلال، مثل “GPT-4o”.
تُبرز النتائج التي خلص إليها الفريق التمايز القائم بين الشمولية والتخصص، وتُظهر كيف يمكن لنموذج مُدرَّب على مجموعة بيانات أصغر ولكنها مُنتقاة بعناية أن يتفوّق على نموذج آخر دُرِّب على بيانات أوسع حجماً لكنها أكثر عمومية.
ولا يقتصر اهتمام كريكليفتس على الجوانب التقنية فحسب، بل يمتد إلى كيفية توظيف أنظمة الذكاء الاصطناعي في الواقع العملي، حيث تقول في هذا السياق: “يمثل هذا العمل مثالاً واضحاً على قدرة الذكاء الاصطناعي على إحداث أثر حقيقي من خلال مساعدة العاملين في مجالات الاستدامة وإدارة الموائل الطبيعية”.
من جانبه، يوضح الدكتور شولاكال أن الباحثين يعتزمون مواصلة هذا المسار من خلال تطوير تطبيق يعمل بالاعتماد على النموذج “MAviS-Chat”، بما يجعله متاحاً لشريحة أوسع من المستخدمين ويمكنهم من تحميل الصور والتسجيلات الصوتية للطيور التي يصادفونها في الطبيعة.
ورقة بحثية جديدة تكشف إطاراً رياضياً مبتكرا لقياس العلاقة بين تسريب البِتّات وعدد الأسئلة اللازمة لاختراق نظم.....
إرينا غوريفيتش من جامعة محمد بن زايد للذكاء الاصطناعي تفوز بجائزة ميلنر 2025 من الجمعية الملكية البريطانية
اختيار ورقتان بحثيتان من جامعة محمد بن زايد للذكاء الاصطناعي ضمن "اختيارات كبار رؤساء المجالات" في مؤتمر.....