رغم ما قد يراكمه البشر وتطبيقات الذكاء الاصطناعي من معرفة أو خبرة أو جاهزيةٍ فكلاهما – بالأساس – يواجهان المعضلة نفسها، آلا وهي معضلة مواجهة الظروف غير المتوقعة التي تشكل جزءاً من الحياة. وتُعتبَر، من هذا المنطلق، إدارة تعقيدات وفوضى العالم من بين أحد أهم وأكبر التحديات التي يواجهها مطورو تطبيقات الذكاء الاصطناعي.
في الواقع ليست جميع تطبيقات الذكاء الاصطناعي بحاجة إلى القدرة على معالجة الأمور المستجدة، غير أن تلك المصممة منها للتعامل مع سيناريوهات العالم المفتوح يجب أن تكون قادرة على إدارة ما يُعرف بـ ’البيانات خارج نطاق التوزيع‘ – أي المعلومات الجديدة التي لم تُستخدم في تدريب النموذج.
وحسب تشانغ زانغ، مساعد باحث في جامعة محمد بن زايد للذكاء الاصطناعي والحاصل على الماجستير من الجامعة نفسها، فإن هذا النوع من النماذج، لا يحتاج – في العالم المفتوح – إلى تعميم البيانات خارج نطاق التوزيع فحسب، بل هو بحاجة أيضاً إلى التعلم باستمرار من البيانات الجديدة لأنه لا يمكن ضمان أن جميع الحالات المحتملة أن يواجهها النموذج قد تم تناولها خلال مرحلة التدريب، ومن المحتمل ظهور مستجدات في البيئة التي سيتعامل معها.
تشكل القدرة على إدارة معطيات الظروف الجديدة أمر جوهرياً لهذا النوع من النماذج، وذلك لأنه من غير الممكن التنبؤ وجمع بيانات التدريب لجميع الحالات المحتملِ أن يواجهها النموذج في العالم الحقيقي.
فبالنسبة لنماذج القيادة الذاتية قد يصعب على تلك المدربة منها في منطقة معينة تعميم البيانات خارج نطاق التوزيع في منطقة أخرى تعتمد – مثلاً – استخدام علامات مرورية أو يسود فيها طقس أو فيها قواعد قيادة مختلفة. وينطبق الأمر نفسه في حالة التصوير الطبي التي يمكن فيها لنموذج من هذا النوع أن يتم تدريبه جيداً على بيانات مجموعة محددة، ثم يكون أداؤه مختلفاً في حال استخدامه مع مجموعة أخرى تتميز بسمات ديموغرافية أو سريرية مختلفة.
يذكر أن تشانغ وباحثون من جامعة محمد بن زايد للذكاء الاصطناعي قاموا بإعداد ورقة في هذا الموضوع تقترح مقاربة جديدة لتحسين مرونة النماذج اللغوية – البصرية وقدرتها على تعميم البيانات خارج نطاق التوزيع. وسيتم تقديم الورقة خلال فعاليات المؤتمر السنوي الثامن والثلاثين للذكاء الاصطناعي AAAI في فانكوفر، كندا.
وقد شارك في إعداد هذا البحث أستاذ الرؤية الحاسوبية، فهد خان؛ وأستاذ تعلم الآلة، كون زانغ؛ وأستاذ الرؤية الحاسوبية المشارك، سلمان خان؛ وأستاذ تعلم الآلة المساعد، زهيكيانغ شين؛ وزميل بحثي ما بعد الدكتوراه، جوانجي شين؛ والباحث العالم، مزمل نصير – وجميعهم من جامعة محمد بن زايد للذكاء الاصطناعي.
تطوير نماذج لغوية – بصرية أفضل
النماذج اللغوية – البصرية هي نظم ذكاء اصطناعي تجمع بين معالجة اللغة الطبيعية وقدرات الرؤية الحاسوبية، وبذلك فهي تكون قادرة على تحقيق التكامل والربط بين ما هو لغوي وما هو مرئي. وتمتاز هذه النماذج بقدرتها على إنشاء علاقات بين المفردات (مثل “كلب”) وصوره (صور للكلاب).
ويطرح تمكين النماذج من هذا النوع لتصبح قادرة على فعل هذا، تحدياً كبيراً في مجال الذكاء الاصطناعي، إذ يتطلب تحقيق هذه الغاية فهماً لِلُغة الإنسان والعالم المرئي المحيط، وفهم علاقة التمثيلات (العلاقة) بينهما في حالات أو سيناريوهات مختلفة.
وتتعلم النماذج اللغوية – البصرية المتاحة وفق نهجين هما: التعلم التوليدي والتعلم التقابلي. ويُمكن استخدام النماذج اللغوية – البصرية التوليدية لإنتاج محتوى وصفي للصور أو الإجابة عن أسئلة حول محتوا الصور أو حتى إنتاج صور بناءً على وصف مكتوب، فيما تقوم النماذج التقابلية منها بدمج الصور والأوصاف النصية في نموذج واحد بشكل متكامل.
ومن بين أمثلة النماذج اللغوية – البصرية التقابلية المتاحة، نموذج CLIP من شركة “أوبن أيه آي” وهو اختصار لـ (تدريب النماذج اللغوية – البصرية التقابلية المسبق)، والذي يمكنه بعد عملية التدريب أن يقوم بتصنيف الصوَر بدقة من خلال مقابلتها [أي الصور] مع مفردات محددة مسبقاً في مساحة تمثيل مشتركة رغم عدم التعامل مع بعض الفئات منها خلال مرحلة التدريب.
ويرى تشانغ، في هذا الصدد، أن أداء نموذجCLIP المعلن عنه في سيناريوهات التعلم من دون تدريب مسبق مبالغ فيه نوعا ما بسبب الافتراضات غير الواقعية التي تعتمد على نطاق واسع من المفردات.
وتوضيحا يعتبر تشانغ أن اعتمادCLIP على فرضية أن المعلومات ضمن حزمة البيانات معروفة ومحددة، يعني أن النموذج يستند إلى فئات محددة كنقطة انطلاق مرجعية دون الحاجة إلى إعادة تحليلها في سيناريوهات أخرى، مشيراً إلى أنه لا يمكننا افتراض معرفة جميع أسماء الفئات في الصور من أشياء وكائنات قبل شرحها. بمعنى آخر، لا يمكننا الاعتماد على وجود مجموعة مثالية من المفردات لوصف فئات الصور قبل تصنيفها تفصيلياً.
وهناك، يضيف تشانغ، أمثلة أخرى حيث إن الكثير من الإعدادات الشائعة الاستخدام لتدريب النماذج اللغوية – البصرية ليست واقعية لاعتمادها على افتراضات محددة مسبقاً، ويدخل في نطاق هذه الإعدادات: التعلم من دون تدريب مسبق، وضبط الأوامر، والتعلم بالمفردات المفتوحة. والملاحظ أن الباحثين المهتمين بهذا المبحث لم يركزوا كثيرا على هذه المشكلة، وهذا ما نحاول إلقاء الضوء عليه.
مَرحباً بكم في الواقع
التحدي الجديد الذي يطرحه الباحثون ويحاولون إيجاد حل له هو ’التصنيف الواقعي دون تدريب مسبق‘، وهو تصنيف مع فرضية أكثر واقعية ومرونة لمجموعة الكلمات أو المفردات التي تستخدم لتدريب النماذج اللغوية – البصرية. ويهدف الباحثون من خلال هذه المقاربة إلى تزويد هذه النماذج بالقدرة، في سيناريوهات العالم المفتوح، على تحديد فئات الصور دون الاعتماد على شرح مسبق وفره الإنسان.
ويطلق الباحثون على الحل المقترح اسم ’الموافقة الدلالية الذاتية الهيكلية‘ (S3A)، وهو حل – مقارنة بالطرق الحالية – مصمم ليكون عملياً أكثر وقادراً على التكيف مع سيناريوهات العالم المفتوح. كما يعزز الحل قدرة هذه النماذج على التكيف من خلال عملها المتواصل على تحسين العلاقات الدلالية بين الصور ومجموعة الكلمات أو المفردات، وتحسين دقة تحديدها للفئات التي لم يسبق أن تعاملت معها دون أي شرح مسبق وفره الإنسان. والاستفادة بالتالي من مجموعة أوسع من المفردات بدل الاعتماد على فرضيات أن المعلومات ضمن حزمة البيانات معروفة ومحددة.
ويشير تشانغ إلى أن التحدي يصبح أكبر عند توسيع نطاق الحقل الدلالي إلى مجموعات المفردات الواقعية حيث إن الهدف هو تحديد المعاني الدلالية الأساسية انطلاقا من هياكل الرسوم البيانية المتواجدة في مساحة تضمين الصور، وتشكيل مجموعات تكشف بدورها عن المعاني الدلالية المشتركة بين الصور، ثم يتم تحديد تصنيف دقيق لكل مجموعة عن طريق ربط هذه المجموعات بمفردات بمعاني دلالية أوسع.
وتنطوي العملية على تجميع الصور استنادًا إلى تضميناتها، وربط هذه المجموعات بأسماء فئات محتملة، باستخدام نماذج لغوية كبيرة لتحسين هذه الارتباطات، ثم إعادة ترتيب الفئات مع الصور استنادًا إلى هذا الفهم الجديد.
وذكر تشانغ، في هذا السياق، أن الاستراتيجية التي تبناها الفريق اعتمد فيها على قدرات النماذج اللغوية الكبيرة لإضافة سياق بصري إضافي لاسم كل فئة. والهدف من البيانات المنشأة هو التمييز بين الصور ذات العلاقة الوثيقة، مع التركيز على السمات الفريدة للأشياء المتشابهة.
وتسمح هذه الطريقة بتحسين كبير في القدرة على تصنيف الصور إلى فئات لم يتم التعامل معها أثناء تدريب النموذج وبالتالي التغلب على قيود الأساليب القائمة.
ولقد بينت الدراسة أن إطار عمل ’الموافقة الدلالية الذاتية الهيكلية‘ (S3A) الذي اقترحه الفريق تفوق على أحدث النماذج من خلال تجارب مختلفة، مما يظهر فعاليته ليس فقط في التعرف على مجموعة واسعة من الفئات، ولكن أيضاً في التعامل مع الفئات التي تقع خارج نطاق مجموعات مفرداته الأوسع.
وشدد تشانغ على الحاجة إلى تقييمات أكثر صرامة وواقعية داخل أوساط الباحثين والمهتمين بهذا المبحث، وقال: “هدفنا هو تسليط الضوء على أوجه القصور في التقييمات الحالية والتأكيد على أهمية تطوير نماذج قادرة على العمل بذكاء في الواقع. ومواجهة التحدي المتمثل في التعميم على سيناريوهات العالم المفتوح ما تزال دون حل، مما يستلزم بذل جهود جماعية لتزويد الأنظمة الذكية بهذه القدرة على المدى الطويل”.
From optimal decision making to neural networks, we look at the basics of machine learning and how.....
يحتفي العالم في 18 ديسمبر من كل عام باليوم العالمي للغة الضاد في لفتَتٍ يقف فيها العالم.....
A team from MBZUAI used instruction tuning to help multimodal LLMs generate HTML code and answer questions.....