يمكن مجازياً تشبيه دماغ الطفل حديث المشي بالإسفنجة. فهو دائم التطور – سواء من حيث استدعاء الذكريات أو تكوين روابط جديدة مع الحاضر. وهي ميزة رائعة جداً في الواقع، لدرجة أن الدكتورة ماريا مونتيسوري، مؤسسة نظام التعلم “مونتيسوري”، وصفت السنوات الست الأولى في حياة الإنسان بمرحلة “العقل الممتص” نظراً لقدرة الأطفال غير العادية على استيعاب واسترجاع كميات هائلة من المعلومات الجديدة. ومن هنا، لا عجب أن يتمثل أحد أهداف خبراء تعلم الآلة على المدى الطويل في محاكاة مآثر التعلم البشري الخارقة التي لوحظت في العقول النامية للأطفال حديثي المشي.
ولعلّ تعليم آلة ما كيفية التعرف على الأشياء والأشخاص والأماكن في الصور أو مقاطع الفيديو يخلق العديد من التحديات الإضافية ويحتاج إلى إرشادات معينة. فهو مثلاً يتطلب آلاف مجموعات البيانات حتى تتعرف الآلة على طرازات وموديلات السيارات في كاميرات مراقبة المرور. وعند نشر هذه الطرازات، تجد الآلة صعوبة أيضاً في اكتشاف الأنواع الناشئة حديثاً، مثل طرازات السيارات الجديدة. ولتعلم أي نوع جديد أو مواكبة أحدث طرازات سيارات “بوجاتي” أو “فيراري”، فإن الأمر يحتاج إلى مجموعات جديدة من الأمثلة. ومع كل تحديث، يكمن الخطر في احتمال نسيان الآلة لسيارة “نيسان صني” القديمة موديل 2008.
لكن ماذا لو لم يحدث ذلك؟ ماذا لو كان بإمكان الآلة البدء بفك التشفير وتحديد الوقت الذي تعجز فيه عن معرفة كائن مناسب والتنبؤ بفئة منفصلة لهذا الكائن بدلاً من رسم فراغ. يمكنك أن تُظهر للطفل شيئاً جديداً، وسيعرف فوراً أنه لعبة حتى لو لم يكن يعرف جميع استخدامات ووظائف تلك اللعبة؛ فهو يدرك أن عليه ألا يتجاهلها وأن يتعرف عليها كشيء جديد. هل سيكون بمقدور آلات الذكاء الاصطناعي محاكاة عملية التعلم البشري هذه القائمة على الفضول والاكتشاف؟ هذا هو حالياً هدف الدكتور سلمان خان، الأستاذ المشارك في قسم الرؤية الحاسوبية في جامعة محمد بن زايد للذكاء الاصطناعي.
وتركز أبحاث الدكتور خان على ابتكار أنظمة قادرة على التعلم المستمر مدى الحياة، تماماً مثل البشر. ولطالما دأب خان على العمل بمجال التعلم من بيانات محدودة (التعلم بأمثلة قليلة few-shot learning والتعلم بدون أمثلة مباشرة zero-shot learning)، والقوة المقاومة للشبكات العصبية العميقة، وأنظمة التعلم المستمر مدى الحياة لمشاكل الرؤية الحاسوبية. ويمكن أن تساعدنا المهام المذكورة أعلاه في تحقيق أنظمة مستقلة ذكية قادرة على فهم العالم الحقيقي بشكل أفضل، وذلك لتحسين التعرف على الأشياء وتحديدها، والتجزئة، وفهم المشهد بالتفصيل.
وبالتعاون مع زميليه الأساتذة في جامعة محمد بن زايد للذكاء الاصطناعي، الدكتور فهد خان (ليس من ذوي القرابة) والدكتور راو أنور، بالإضافة إلى شركاء مثل جامعة ستوني بروك، و”أبحاث جوجل”، وجامعة سنترال فلوريدا، وجامعة كاليفورنيا في ميرسيد، والمعهد التأسيسي للذكاء الاصطناعي (IIAI)؛ استكمل خان مؤخراً العديد من الأوراق البحثية في مجالات مختلفة شملت الرؤية الحاسوبية، وتعلم الآلة، والتعلم العميق، ومعالجة الصورة.
وقدموا معاً أبحاثهم في النسخة الرابعة والثلاثين لمؤتمر الرؤية الحاسوبية والتعرف على الأنماط السنوي (CVPR 2022) الذي استضافته مدينة نيو أورليانز بولاية لويزيانا. وكانت الورقة البحثية التي أعدها خان وزملاؤه حول “استعادة الصور المتدفقة وتحسينها” (Burst Image Restoration and Enhancement) واحدة من 33 ورقة بحثية وصلت إلى نهائيات مسابقة أفضل ورقة بحثية في المؤتمر. والهدف هو دمج الصور المتدفقة (المتتالية) من الهواتف الذكية لإنتاج مخرجات عالية الجودة (انظر الرسم البياني).
وتم اختيار خان ممثلاً عن المجال في النسخة الرابعة والثلاثين لمؤتمر الرؤية الحاسوبية والتعرف على الأنماط (CVPR 2022)، وقد ساعد في مراجعة الأوراق البحثية. كما أنه ممثل عن المجال في النسخة السادسة والثلاثين لمؤتمر نظم معالجة المعلومات العصبية (NeurIPS 2022)، المؤتمر الأبرز بمجال تعلم الآلة والذي تستضيفه مدينة نيو أورليانز أيضاً في أواخر نوفمبر 2022.
قدم خان 3 عروض تقديمية شفهية في مؤتمر الرؤية الحاسوبية والتعرف على الأنماط 2022، بالإضافة إلى 3 ملصقات؛ حيث تمحورت معظم أبحاثه حول موضوعات محولات الرؤية، والتعلم المتزايد مدى الحياة، والتعلم في العالم المفتوح. وكان باحثو جامعة محمد بن زايد للذكاء الاصطناعي قد طرحوا في مؤتمر الرؤية الحاسوبية والتعرف على الأنماط 2021 مشكلة اكتشاف الكائنات في العالم المفتوح لأول مرة. وتحاول الورقة البحثية لهذا العام “OW-DETR: محول استكشاف العالم المفتوح” (OW-DETR: Open-world Detection Transformer) سبر أغوار هذا الاتجاه وتقديم نماذج محولات الرؤية لضمان التعلم المرن لأنواع الكائنات الجديدة.
وقال خان خلال المقابلة التي أجريت معه في مؤتمر الرؤية الحاسوبية والتعرف على الأنماط 2022: “تمثل المحولات أسلوباً بنيوياً جديداً يمكنه معالجة أنماط البيانات المختلفة. وسواء كان لديك نص أو خطاب أو صور أو مقاطع فيديو، يمكن للمحولات معالجة مجموعات مختلفة من المعلومات داخل بنية واحدة وموحدة باستخدام نفس المكونات الأساسية للانتباه الذاتي. ونحن نستخدم هذا الإطار – إطار الكشف في العالم المفتوح – لنستعرض ولأول مرة كيفية استخدامه لتطوير نظام مفتوح، والذي يكشف باستمرار عن فئات جديدة، ثم يطور مفرداته بشكل تدريجي من خلال التعرف عليها”.
“ونحن كبشر حريصون باستمرار على تنمية معارفنا والتكيف مع المواقف الديناميكية. وستكون القدرة على التكيف مع البيئات الجديدة وتعلم مهارات مختلفة حجراً أساسياً لابتكار أدوات مستقلة”.
“عادةً ما يتم تدريب النماذج بطريقة ثابتة في مجال تعلم الآلة حالياً – حيث يتم إدخال جميع البيانات في نموذج للتدريب وتظل القيم المكتسبة ثابتة. وخير مثال على ذلك هو مجموعة بيانات الشهيرة (إيمدج نت ImageNet) والتي تحتوي على 1000 فئة كائنات يتم استخدامها للتدريب في مشهد تدريب واحد، ويتم التعرف على تمثيلات جميع الفئات البالغ عددها 1000 مثل سلالات الكلاب المختلفة وأنواع الفاكهة. لكن ماذا لو كانت فئات الكائنات الجديدة ذات أهمية في المستقبل؟ إن اعتماد أسلوب بسيط لتدريب النموذج على البيانات الجديدة، سيتسبب بكارثة نسيان النموذج لفئات الكائنات السابقة بلا شك”.
ويتمثل الهدف الأسمى لخان وزملائه في الحصول على نموذج قابل للتطوير يمكن تكييفه باستمرار ولا يتطلب إعادة التدريب من نقطة الصفر في كل مرة يضاف فيها المزيد من فئات الكائنات. ويجب أن تتجنب مثل هذه النماذج نسيان المعارف السابقة، وأن تخفف التعنت في تعلم مفاهيم جديدة. وهو يربط هذا الأمر بالتعليم والتعلم البشري حيث لا يتوقف التكيف والتقدم الفكري أبداً، ولا تتداخل المعلومات الجديدة مع المعلومات السابقة.
وأضاف خان: “نتطلع لتقديم مفاهيم جديدة لا تؤثر على المعارف السابقة وتكون قابلة للتكيف. كما يجب تعديل نموذجك باستمرار وفقاً للمتطلبات الناشئة والاتجاهات سريعة التطور والمفاهيم والنماذج المتنوعة المضافة إليه. ويجب أن يكون قادراً على مواصلة استخدام المحتوى المفيد من الماضي، ويتيح تعلم الأشياء الجديدة بمرونة. بمعنى آخر، لا ينبغي أن يكون النموذج جامداً بحيث يحول دون تعلم المزيد، ولا مرناً جداً بحيث ينسى كل شيء من الماضي”.
“ويتناول العلماء معضلة المرونة واللدونة في الشبكات العصبية الاصطناعية. ويشمل مجال اهتمامنا تطوير النموذج الثابت – تحقيق التوازن المناسب بين هذين النقيضين، بحيث يحتفظ بالمعارف المفيدة من الماضي ثم يتكيف مع الظواهر الجديدة الناشئة والمثيرة للاهتمام. وتعيد الآلة استخدام المحتويات السابقة للمساعدة في فهم الأشياء الجديدة باستخدام بيانات أقل”.
وثمة العديد من الاستخدامات لمثل هذه الأنظمة على أرض الواقع؛ إذ يمكن استخدامها في أنظمة التعرف على الهوية للهجرة من خلال المقاييس الحيوية، وتحليل المتسوقين في مراكز التسوق، والمدن الذكية والتطبيقات الاجتماعية، وأدوات تحليل البيانات والاتجاهات.
نشر أعضاء الهيئة التدريسية والطلاب في جامعة محمد بن زايد للذكاء الاصطناعي 31 ورقة بحثية بالمجمل، بما في ذلك 6 عروض تقديمية شفهية في مؤتمر الرؤية الحاسوبية والتعرف على الأنماط 2022. وتظهر أسماء 7 من أعضاء الهيئة التدريسية على أكثر من ورقة بحثية. وعندما تنشر هذه الأوراق، سيسهم أعضاء الهيئة التدريسية بإيصال رسالة الجامعة إلى 16 دولة عبر 5 قارات أبرزها الصين والولايات المتحدة الأمريكية وأستراليا وكوريا الجنوبية.
· ك.ج. جوزيف، سلمان خان، فهد شهباز خان، راو محمد أنور، فينيث ن. بالاسوبرامانيان؛ “المحاذاة الكامنة القائمة على الطاقة للتعلم المتزايد” (ملصق)، وقائع مؤتمر مؤسسة الرؤية الحاسوبية/ معهد مهندسي الكهرباء والإلكترونيات حول الرؤية الحاسوبية والتعرف على الأنماط (CVPR)، 2022، ص 7452-7461
· أنيرود ثاتيبلي، ساناث نارايان، سلمان خان، راو محمد أنور ، فهد شهباز خان، برنارد غانم. “نمذجة العلاقة الزمانية المكانية فيما يرتبط بتحديد الإجراءات بناء على نماذج تدريبية قليلة” (ملصق)، وقائع مؤتمر مؤسسة الرؤية الحاسوبية/ معهد مهندسي الكهرباء والإلكترونيات حول الرؤية الحاسوبية والتعرف على الأنماط (CVPR)، 2022، ص 19958-19967
· أكشي دودهاني، سيد وقاص زامير، سلمان خان، فهد شهباز خان، مينغ سوان يانغ؛ “استعادة الصور المتدفقة وتحسينها” (شفهي، بين المرشحين النهائيين لجائزة أفضل ورقة بحثية)، وقائع مؤتمر مؤسسة الرؤية الحاسوبية/ معهد مهندسي الكهرباء والإلكترونيات حول الرؤية الحاسوبية والتعرف على الأنماط (CVPR)، 2022، ص 5759-5768
· أكشيتا جوبتا، ساناث نارايان، ك. ج. جوزيف، سلمان خان، فهد شهباز خان، مبارك شاه؛ “OW-DETR: محول استكشاف العالم المفتوح” (ملصق)، وقائع مؤتمر مؤسسة الرؤية الحاسوبية/ معهد مهندسي الكهرباء والإلكترونيات حول الرؤية الحاسوبية والتعرف على الأنماط (CVPR)، 2022، ص 9235-9244
· كنشانا راناسينغي، مزمل نصير، سلمان خان، فهد شهباز خان، مايكل س. ريو، “محولات الفيديو ذلتية الإشراف” (شفهي)، وقائع مؤتمر مؤسسة الرؤية الحاسوبية/ معهد مهندسي الكهرباء والإلكترونيات حول الرؤية الحاسوبية والتعرف على الأنماط (CVPR)، 2022، ص 2874-2884
يذكر أن “مؤتمر الرؤية الحاسوبية والتعرف على الأنماط” يقام بالشراكة ما بين “مؤسسة الرؤية الحاسوبية” (CVF) و”معهد مهندسي الكهرباء والإلكترونيات” (IEEE). وستكون وقائع المؤتمر متاحة للجمهور عبر موقع المؤسسة الإلكتروني، فيما سيتم نشر النسخ النهائية من الأوراق البحثية عبر منصة IEEE Xplore مع ختام المؤتمر.
قبل انضمامه إلى جامعة محمد بن زايد للذكاء الاصطناعي، عمل سلمان خان كعالم أول في “المعهد التأسيسي للذكاء الاصطناعي” (2018-2020)؛ ومحاضراً فخرياً في الجامعة الوطنية الأسترالية منذ عام 2016. وتشمل مهامه السابقة العمل بصفة عالم باحث لدى “الوكالة العلمية الوطنية في أستراليا” (Data61-CSIRO) بين عامي 2016 و2018، وباحث زائر لدى “المؤسسة الوطنية لتكنولوجيا المعلومات والاتصالات في أستراليا “NICTA في عام 2015.
نشر سلمان خان أكثر من 100 ورقة بحثية في أهم المجلات العلمية والمؤتمرات مثل مجلة “عمليات تحليل الأنماط والذكاء الاصطناعي” (TPAMI) و”المجلة الدولية للرؤية الحاسوبية” (IJCV) و”مؤتمر الرؤية الحاسوبية والتعرف على الأنماط” (CVPR) و”المؤتمر الدولي للرؤية الحاسوبية” (ICCV) و”المؤتمر الأوروبي للرؤية الحاسوبية” (ECCV) و”المؤتمر الدولي لعروض التعلم” (ICLR) و”مؤتمر نظم معالجة المعلومات العصبية” (NeurIPS) و”المؤتمر الدولي المشترك حول الذكاء الاصطناعي” (IJCAI) و”المؤتمر الدولي للروبوتات والنظم الذكية” (IROS) و”مؤتمر جمعية النهوض بالذكاء الاصطناعي” (AAAI). يحمل الدكتور سلمان خان شهادة الدكتوراه من جامعة غرب أستراليا عام 2016. وتلقت أطروحته مرتبة الشرف عبر جائزة قائمة العميد.
From optimal decision making to neural networks, we look at the basics of machine learning and how.....
يحتفي العالم في 18 ديسمبر من كل عام باليوم العالمي للغة الضاد في لفتَتٍ يقف فيها العالم.....
A team from MBZUAI used instruction tuning to help multimodal LLMs generate HTML code and answer questions.....