من المكتوب إلى الصورة: خريج ماجستير يطور تكنولوجيا متقدمة لتحويل النص إلى صورة

Tuesday, June 11, 2024

أحدثت تكنولوجيا تحويل النص إلى صورة ضجة كبيرة عندما طُرحت للاستخدام مع إطلاق تطبيقات مثل Dall-E وMidjourney وAdobe Firefly، غير أن هذا الوهج الذي حظيت به هذه التكنولوجيا سرعان ما خفت مع إدراك المستخدمين سريعاً أن أمراً Prompt)) يتجاوز حدود جملة أمرية بسيطة من بِضع كلمات من شأنه أن يربك النظام ويؤدي إلى صور تبدو غريبة أو لا تعكس تماما فحوى الأمر.

طرحت هذه المشكلة إلى الآن تحدياً وعقبة أمام تطور هذه التكنولوجيا. وشكل رفع هذا التحدي بالنسبة لمحمد حنان غاني، الذي تخرج في جامعة محمد بن زايد للذكاء الاصطناعي حديثاً بدرجة الماجستير في تخصص الرؤية الحاسوبية، حافزا لجعله موضوعا محوريا لبحثه.

درس غاني هندسة الإلكترونيات والاتصالات مع علوم الحاسوب للحصول على درجة البكالوريوس في بلده الهند، وعمل لدى سامسونج كمهندس في مجال تعلم الآلة قبل أن يقرر العودة إلى الدراسة عام 2022. ويعتبر غاني أن تجربة العمل لدى شركات كبرى مثل سامسونج شكل بالنسبة له فرصة رائعة، عمل فيها – يقول – بشكل أساسي على مشاريع قائمة، في حين أنه كان مُتحمسا للاشتغال على شيء جديد تماماً؛ وكان هذا سبب قراره خوض تجربة جديدة يحقق من خلالها حلمه بالبحث ونشر أوراق بحثية في أهم المؤتمرات المتخصصة عالمياً.

ولتحقيق حلمه، لم يفوت غاني فرصة الاستفادة من خبرة جامعة محمد بن زايد للذكاء الاصطناعي الواسعة والقوية التي مكنته بسرعة من دراسة أشياء جديدة في مجال الذكاء الاصطناعي، بما فيها تمكين الخوارزميات من التعلم من البيانات المحدودة وتمكين النماذج متعددة الوسائط من تحقيق مخرجات أفضل اعتماداً على ما تتعلمه من محتوى الصور والنصوص.

ويوضح غاني: “يُعتبر هذا المبحث بالنسبة للآلات وأنواع كثيرة من الأجهزة المحمولة مبحثا مهما لأنه ينظر في الكيفية التي يمكن بها تزويد الأجهزة بالقدرة على فهم الصور واللغة، وتحسين قدرات الروبوتات والأجهزة المستقلة لأداء مهام مفيدة. كما أن هذا المبحث – يضيف غاني – يسهم في تحسين كفاءة تعلم الأجهزة”.

ويعود سبب اهتمام غاني بتعميق البحث في هذا المجال إلى إدراكه لمدى حجم العمل الذي ما زال يجب القيام به، وانسجام ذلك تماما مع اهتماماته وأهدافه البحثية. واستند غاني – يقول – في بحثه على دراسة الثغرات في البحوث وأوجه الضعف التي تعيق الأداء الجيد للنماذج. ولاحظ غاني أن نماذج تحويل النص إلى الصور تواجه صعوبة في التعامل مع الأوامر (Prompts) النصية الطويلة. وقاده هذا، في محاولة مبتكرة إلى العمل على إيجاد حلول لبعض من التحديات التي تؤثر على الخدمات التي تقدمها شركات التكنولوجيا العملاقة، إلى الجمع بين تقنيتي النماذج اللغوية الكبيرة ونماذج الانتشار.

يذكر أن غاني، الذي أشرف على بحثه الدكتور سلمان خان – أستاذ مشارك في قسم الرؤية الحاسوبية في جامعة محمد بن زايد للذكاء الاصطناعي – نشرت له ثلاث أوراق بحثية في مؤتمرات متخصصة بما فيها ’المؤتمر الدولي للتمثيلات التعلمية‘ (ICLR)، و’المؤتمر البريطاني للرؤية الآلية‘ (BMVC)، و’مؤتمر نظم معالجة المعلومات العصبية‘ .(NeurIPS)

وعلاقة ببحوثه المنشورة، ذكر غاني أن ورقته البحثية التي شارك بها في ’المؤتمر الدولي للتمثيلات التعلمية‘ تمحورت حول موضوع إنشاء الصور انطلاقا من فقرات نصية أطول، موضحاً أن هدف نظام تعلم الآلة الذي اشتغل عليه هو جعل الصور المنشأة تتناسب بدقة مع النص، حيث إنه عمل من خلال بحثه على تحسين مستوى أداء التكنولوجيا الرئيسية القائمة وتطوير نظام ينشئ صور تتبع تفاصيل النص تماما، ويشكل هذا – يقول غاني – إنجازاً لم يسبق له مثيل في مجال تعلم الآلة.

جدير بالذكر أن الورقة البحثية التي شارك بها غاني في ’المؤتمر الدولي للتمثيلات التعلمية‘ قد تم بالفعل الاستشهاد بها أكثر من 20 مرة مما يؤكد تأثير البحث الذي قام به.

طموح غاني هو أن تسهم بحوثه المتصلة بالتعلم الفعال للآلات في تمكين المناطق حيث شبكات البيانات والطاقة ليست قوية من الاستفادة من فوائد تكنولوجيا تعلم الآلة. ويوضح غاني أن مقاربته التي تهدف إلى تحقيق الكفاءة وقابلية التشغيل في بيئات تعاني نقصا في الموارد والبيانات من شأنه أن يدعم استخدامات وتطبيقات متعددة لتكنولوجيا الذكاء الاصطناعي في دعم – على سبيل المثال – عمل أجهزة المسح الطبية في المستشفيات وتعزيز قدرة المركبات الذاتية القيادة على التعرف على الأشياء والشواخص.

بعد التخرج، يرغب غاني في البقاء في جامعة محمد بن زايد للذكاء الاصطناعي ومواصلة أبحاثه للحصول على الدكتوراه. ورغبته غاني بالبقاء في الجامعة سببها تجربته الإيجابية وجودة التدريس والتوجيه فيها، مشيراً إلى الحرية البحثية التي منحه إياها الدكتور سلمان خان، للبحث في مجالات ذات قيمة مضافة وما تلقاه منه من دعم وما وجده فيه من استعداد لمشاركة الأفكار والتوجيه. كما خص غاني بالذكر أيضاً الدكتور مزمل نصير، الباحث في الجامعة نفسها، الذي لم يبخل عليه بمعرفته وخبرته في توجيه بحثه.

وللابتعاد شيئا ما عن أجواء الدراسة والبحث، يشارك غاني – كما قال – في الألعاب الرياضية ويحب الذهاب إلى صالة الألعاب الرياضية. وقال: “إن الرياضات الجماعية مثل الكرة الطائرة تعتبر وسيلة رائعة للاسترخاء وخلق الفرص لتكوين صداقات جديدة”، مضيفا: “إننا فعلا محظوظون بوجود مرافق رياضية وترفيهية رائعة في جامعة محمد بن زايد للذكاء الاصطناعي تساعدنا على عيش تجربة جامعية متوازنة ومتميزة”.

أخبار ذات صلة

thumbnail
Tuesday, November 26, 2024

النماذج اللغوية الكبيرة وفهم انفعالات الإنسان وعواطفه

فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي وجامعة موناش يبحث في مدى قدرة النماذج اللغوية.....

  1. التعاطف ,
  2. انفعالات الإنسان ,
  3. معالجة اللغة الطبيعية ,
  4. EMNLP ,
  5. النماذج اللغوية الكبيرة ,
  6. البحوث ,
اقرأ المزيد