انتشرت مؤخراً منشورات وأخبار حول قدرة الذكاء الاصطناعي على توليد مجموعة متنوعة من الصور لأشخاص لم يتواجدوا قط في الواقع. على سبيل المثال، استخدم برنامج “دال-إي” لشركة “أوبن إيه آي” نماذج التعلم العميق على نطاق واسع لتوليد صور رقمية. ويقتصر الأمر على كتابة توجيه بسيط على غرار “رجل يرتدي بذلة ويمشي إلى عمله وهو يمسك بكوب قهوة” ليحصل المستخدم على نتائج قريبة من الواقع بشكلٍ مدهش لأول وهلة.
ولكن عند النظر عن كثب إلى الصورة، غالباً ما تظهر بعض الشوائب في التفاصيل الفِسيولوجية لهؤلاء البشر الافتراضيين.
ففي حين أن نماذج توليد صور البشر غالباً ما تنتج صوراً دقيقة للأجسام البشرية، تواجه هذه الأنظمة صعوبة كبيرة في ما يتعلق بملامح أخرى مثل اليدين، التي تتكون في الكثير من الأحيان من ستة أو سبعة أصابع أو أكثر.
قد يبدو من الغريب أن هذه الآلات الجبارة تواجه صعوبة في رسم خصائص بسيطة للجسم البشري، إلا أن هذه النتائج تعكس فعلياً “مشكلة أساسية في الرؤية الحاسوبية والتعلم العميق” بحسب شياودان ليانغ، وهي أستاذة زائرة في قسم الرؤية الحاسوبية في جامعة محمد بن زايد للذكاء الاصطناعي.
تبحث ليانغ في مجال الرؤية الحاسوبية في الجامعة وتعمل على تطوير تطبيقات تعالج مهاماً مثل التعرف على البشر وتقسيم صور البشر والتعرف الرقمي على البشر. وغالباً ما تلجأ ليانغ وزملاؤها إلى مجالات دراسية أخرى لتحسين نماذجهم.
وتقول في هذا الصدد: “تستلهم بحوثنا كثيراً من علم الأعصاب إذ يمكننا الحصول على التغذية الراجعة بشأن المنطق من هذا المجال العلمي. ومن الأمثلة المهمة على المنطق البشري فكرة أن يد الإنسان تتكون عادةً من خمسة أصابع. ويمكن دمج هذه المعلومات ضمن نموذج التعلم العميق واستخدامها كتغذية راجعة لتوجيه النموذج.”
يتم عادةً وصف تقنيات التعلم العميق على أنها صندوقٌ أسود لأن البشر لا يدركون تماماً كيف تتوصل هذه الآلات إلى نتائجها. وبحسب الأستاذة ليانغ، لا يستطيع البشر تفسير معظم تقنيات التعلم العميق.
فلا نعرف تماماً لماذا تستمر نماذج التعلم العميق لتوليد صور البشر بابتكار صور تتألف فيها يد الإنسان من عدد زائد عن العادة من الأصابع. غير أن إضافة المنطق البشري إلى التعلم العميق قد يساهم في تحسين النتائج.
وتفسّر ليانغ: “يحاول بحثنا دمج المنطق في التعلم العميق وتقول نظريتنا إنه باستطاعتنا تمكين التعلم العميق عبر دمج المعرفة المنطقية في الخوارزميات لكي نجعل التعلم العميق أكثر منطقية.”
عند استهلال أي مشروع، تبدأ ليانغ وزملاؤها بطرح مشكلة من العالم الحقيقي ومن ثم يعملون على تطوير التطبيقات اللازمة لحل هذه المشكلة.
وتفيد ليانغ: “في مجال الرؤية الحاسوبية، نعمل دائماً على تطبيقات العالم الحقيقي. أي أننا نبدأ بالمشكلة ومن ثم نصمم خوارزميات تستطيع حلها.”
وانصبت جهود ليانغ مؤخراً على التعرف على البشر وتقسيم صور البشر، وهو نشاط تعمل الآلة من خلاله على تحليل صورة لتحديد المواقع فيها التي تمثل إنساناً، ومن ثم تقوم الآلة بتصنيف أجزاء هذا الإنسان المختلفة مثل الرأس واليدين والجذع.
ويمكن تطبيق هذه التقنية في قطاع الملابس لتمكين الأفراد من تجربة الملابس افتراضياً قبل شرائها. وقد يستطيع المرء في المستقبل زيارة الموقع الإلكتروني لعلامته التجارية المفضلة وتحميل صورة لنفسه ومن ثم تجربة الملابس على هذا الموقع لتقييم ما إذا كانت تلائمه أو لا.
قد تبدو هذه الفكرة بسيطة بعض الشيء لكن إعادة تكوين مظهر قطعة من الملابس على جسم إنسانٍ ما بشكلٍ دقيق هي عملية معقدة جداً في الواقع.
وتقول ليانغ في هذا السياق: “تختلف أساليب الموضة عن بعضها اختلافاً كبيراً، وقد نواجه صعوبة في نمذجة مختلف أنواع الملابس مثل تلك الواسعة والمنسدلة. وثمة تنوع واختلاف كبيران في أشكال جسم الإنسان أيضاً فنجد من هو طويل القامة أو قصير القامة أو من هو نحيل جداً ومن يعاني من السمنة.”
وتضيف أنه يجب اعتبار جميع هذه العوامل وغيرها الكثير عند تطوير نظام لمحاكاة المظهر المحتمل للملابس على جسم الإنسان.
شاركت ليانغ بحثها بشأن 'تجربة الملابس افتراضياً' في المؤتمر السادس والثلاثين لنظم معالجة المعلومات العصبية 2022 العام الماضي. ويصف بحثها نظاماً يراعي النواحي ثلاثية الأبعاد لجسم الإنسان ويستطيع نمذجة الملابس لمختلف الأفراد مع معالجة 'تغيرات كبيرة في وضعية الشخص ووجهات النظر مع الحفاظ على مظهر النسيج وبنيته.' وسجلت الشبكة التي طورتها ليانغ بالتعاون مع زملائها أداءً جيداً مقارنة مع الشبكات القائمة لهذا الغرض.
وتتوقع ليانغ مشاركة بحوث إضافية حول تجربة الملابس افتراضياً في مؤتمر الرؤية الحاسوبية والتعرف إلى الأنماط هذه السنة، وهو أهم فعالية تُنظم في مجال الرؤية الحاسوبية. سيُعقد المؤتمر في شهر يونيو في مدينة فانكوفر في كندا، وستكون ليانغ إحدى أعضاء لجنة المظالم الأربعة في المؤتمر.
وتقول: “سنطور في المستقبل تطبيقات تستطيع توليد صور دقيقة جداً للبشر يمكننا تحريرها وربما استبدال الجسم والوجه وتغيير الخلفية. وإذا توفرت هذه الصور، سنتمكن من تغيير أي جانب منها لنجعل الجسم يتكلم أو يتحرك بطرق مختلفة.”
ولا شك في أن التطبيقات المحتملة في هذا المجال واسعة النطاق، بدءاً من تجربة الملابس افتراضياً في قطاع التجزئة وصولاً إلى طرح صور رمزية (أفاتار) أكثر واقعية في الميتافيرس وتطبيقات متعددة في قطاع الأفلام وحتى توليد بشر افتراضيين يمكننا التفاعل معهم.
يحتفي العالم في 18 ديسمبر من كل عام باليوم العالمي للغة الضاد في لفتَتٍ يقف فيها العالم.....
فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي وجامعة موناش يبحث في مدى قدرة النماذج اللغوية.....
اقرأ المزيدفريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي يفوز بجائزة تقديرية عن دراسة بحثية تشجع الباحثين.....