تعليم الآلة أن ترى بالعربية: كيف يعيد نموذج "عين" رسم حدود الذكاء الاصطناعي متعدد الوسائط - MBZUAI MBZUAI

تعليم الآلة أن ترى بالعربية: كيف يعيد نموذج “عين” رسم حدود الذكاء الاصطناعي متعدد الوسائط

الأربعاء، 22 أبريل 2026

في الوقت الذي تتسارع فيه وتيرة تطوير النماذج المتقدمة في الذكاء الاصطناعي، لا تزال فجوة لغوية واضحة تفصل بين اللغات العالمية الكبرى وبقية لغات العالم، فبينما تتلقى الإنجليزية النصيب الأكبر من البيانات والاستثمار والبحث، تبقى لغات عديدة من بينها العربية أقل تمثيلاً في النماذج المتقدمة، رغم ثقلها الديموغرافي والثقافي.

تُستخدم العربية من قبل أكثر من 400 مليون شخص في أكثر من عشرين دولة، وهي إحدى أقدم لغات الإنتاج الأدبي في العالم، فضلاً عن كونها لغة عمل في اقتصادات كبرى إلا أن حضورها في نماذج الذكاء الاصطناعي المتقدمة، خصوصاً متعددة الوسائط، لا يزال دون مستوى هذا الامتداد.

صُممت النماذج متعددة الوسائط القادرة على قراءة الوثائق، وتحليل الصور الطبية، وتفسير صور الأقمار الصناعية، والإجابة عن الأسئلة المرتبطة بالصور في الغالب باللغة الإنجليزية، وبدرجة أقل للصينية. ورغم التقدّم الذي أحرزه الذكاء الاصطناعي العربي في معالجة النصوص، فإن النماذج التي تجمع بين الرؤية واللغة بالعربية لا تزال نادرة، وما هو متاح منها لا يعكس إلا شريحة محدودة من التعقيد اللغوي للعربية، سواء على مستوى البنية الصرفية أو النحوية أو الصوتية، أو من حيث التنوع الأسلوبي وتعدد اللهجات.

في هذا السياق، يعمل فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي، بقيادة طالب ماجستير العلوم أحمد هيكل وطالبة الدكتوراه سارة غبورة، على تطوير نموذج متعدد الوسائط يعرف باسم AIN اختصاراً لعبارة Arabic INclusive Multimodal Model، ويحمل في الوقت ذاته معنى “العين”، في إشارة مباشرة إلى الرؤية بوصفها جوهر هذه الفئة من النماذج.

النموذج، الذي يضم 7 مليارات معلمة، قادر على معالجة النصوص والصور معاً باللغتين العربية والإنجليزية. ووفقاً لتقرير تقني حديث، تفوق “عين” على نموذج GPT-4o ، رغم كونه أصغر حجماً بفارق كبير، بمتوسط قدره 3.4 نقاط مئوية عبر 38 مهمة فرعية باللغة العربية موزعة على ثمانية مجالات، تشمل الإجابة عن الأسئلة البصرية، والتعرف الضوئي على النصوص، والتصوير الطبي، وتشخيص أمراض المحاصيل، وتحليل استخدامات الأراضي عبر صور الأقمار الصناعية.

غير أن ما يجعل مشروع “عين” مهماً لا يقتصر على هذه النتيجة، بل يشمل أيضاً ما تطلّب الوصول إليها: بناء منظومة متكاملة لإنتاج بيانات تدريبية عربية متعددة الوسائط عالية الجودة من الصفر.

معضلة البيانات: حين لا تكون الوفرة متاحة

في حالة اللغة الإنجليزية، تُعد عملية بناء نموذج متعدد الوسائط مشكلة “غنية بالبيانات”، حيث تتوفر ملايين الأزواج من الصور والنصوص عبر الإنترنت المفتوح والمجموعات البحثية. أما في العربية، فإن مثل هذه الوفرة غير موجودة.

ولا تتعلق المشكلة فقط بندرة البيانات، بل بطبيعتها أيضاً إذ يتطلب تدريب النماذج متعددة الوسائط توافقاً دقيقاً بين الصورة والنص، وهو أمر يصعب تحقيقه على نطاق واسع باللغة العربية.

لمواجهة هذا التحدي، قام فريق “عين” ببناء مجموعة بيانات تضم 3.6 مليون عينة متعددة الوسائط تجمع بين العربية والإنجليزية. وشكّلت البيانات العربية “الأصيلة” أي المكتوبة بالعربية من الأصل نحو 35% منها، بينما جرى إنتاج البقية عبر ترجمة مجموعات بيانات إنجليزية إلى العربية الفصحى.

بدأ الفريق بتقييم ثلاثة نماذج من عائلة GPT-4 لاستخدامها كمحرّكات للترجمة: GPT-4 وGPT-4o  وGPT- 4o-mini  وقام متحدثون أصليون باللغة العربية بتقييم النتائج مقارنة بترجمات بشرية مرجعية. وجاء GPT-4o-mini في الصدارة، حيث أظهر اتساقاً أعلى ودقة أفضل في التعامل مع الأسماء الخاصة  مثل “Boeing”  مقارنة بـ GPT-4o، الذي كان يُسقط هذه الأسماء أو يشوهها في بعض الحالات.

لكن الترجمة وحدها لم تكن كافية. لذلك، صمم الفريق منظومة تحقق متعددة المراحل.

في المرحلة الأولى، استخدموا نموذج LaBSE، وهو نموذج تمثيل دلالي مستقل عن اللغة، لقياس درجة التشابه بين النصوص الأصلية وترجماتها. وقد تم اختياره بعد تقييم مقارن مع خمسة نماذج متعددة اللغات باستخدام مجموعة جمل عربية صُممت خصيصاً لاختبار أنماط إخفاق محددة، مثل:

  • اختلاف علامات الترقيم بين العربية والإنجليزية
  • الالتباس في التذكير والتأنيث
  • التعامل مع التشكيل
  • الفرق بين الترجمة الحرفية والترجمة المعنوية

وأثبت LaBSE موثوقية عالية، إذ أتاح استبعاد الترجمات التي تقل درجة تطابقها عن 80%، وهي نسبة لم تتجاوز 2% من إجمالي البيانات.

في المرحلة الثانية، استخدم الفريق آلية “الدورة الكاملة”، حيث أُعيدت ترجمة النصوص العربية إلى الإنجليزية باستخدام GPT-4o-mini، ثم قورنت النتائج بالأصل باستخدام مقاييس BLEU وMETEOR وROUGE. وأظهرت النتائج جودة مرتفعة في الحفاظ على المعنى، حيث بلغ METEOR نحو 86% وتجاوز ROUGE-L نسبة 85%.

أما الصور، فقد خضعت لفحص دقيق باستخدام LLaVA-Guard بالتكامل مع GPT-4o، ما أدى إلى استبعاد نحو 4.4% من الصور بسبب احتوائها على محتوى ضار، مثل العنف أو الأسلحة أو إساءة المعاملة أو القسوة على الحيوانات.

تعكس هذه المنهجية فكرة جوهرية: في غياب الوفرة، يمكن للتنظيم الدقيق وآليات التحقق الصارمة أن تعوّض عن النقص في الحجم.

البنية والتدريب: الاستفادة من الأساس المفتوح

يعتمد نموذج “عين” على البنية Qwen2-VL-7B، وهو نموذج مفتوح المصدر طوّره فريق Qwen التابع لشركة علي بابا. وقد أجرى فريق جامعة محمد بن زايد للذكاء الاصطناعي عملية ضبط دقيق كاملة لجميع المعلمات باستخدام مجموعة البيانات الثنائية اللغة.

تم التدريب باستخدام 64 وحدة معالجة رسومية من نوع NVIDIA A100 موزعة على ثماني عقد حوسبية، ضمن إعداد قابل لإعادة الإنتاج، ما يتيح للباحثين الآخرين إعادة التجربة والتحقق من النتائج.

استخدم الفريق أيضاً تقنيات مثل flash attention وتقنيات Liger لتقليل استهلاك الذاكرة وتحسين كفاءة المعالجة، كما اعتمد إعدادات المعاملات الفائقة من منصة LLaMA-Factory مفتوحة المصدر، ما ساهم في تحقيق توازن دقيق بين الأداء والكفاءة خلال عملية التدريب.

ومن التحديات المهمة التي عالجها الفريق الفجوة بين بيانات التدريب وبيانات الاستخدام الواقعي. فالصور المستخدمة في التدريب تكون عادة نقية وعالية الجودة، بينما الصور في الواقع تكون مضغوطة ومتدهورة نتيجة دورات التحميل والتنزيل المتكررة.

ولمعالجة هذا التباين، قام الفريق بتطبيق أسلوب “الضغط مع الفقد” أثناء التدريب، حيث خضعت 25% من الصور لضغط JPEG عشوائي متعدد المراحل قبل إدخالها للنموذج، مما ساهم في محاكاة ظروف الاستخدام الواقعي وتحسين أداء النموذج في البيئات الحقيقية.

الأداء: تفوق يتجاوز الحدود اللغوية

على معيار  CAMEL-Bench، وهو معيار شامل للغة العربية يضم 38 مجالاً فرعياً، حقق AIN-7B نتيجة إجمالية بلغت 63.77%، مقارنة بـ 60.13% لـ GPT-4o و52.38% لـ Gemini 1.5 Pro.

وسجّل أقوى أداء له في مهام التعرف الضوئي على النصوص وفهم المستندات، حيث بلغ 72.35%، متفوقاً بفارق كبير على  GPT-4o.

كما أظهر تفوقاً في مهام:

  • الإجابة عن الأسئلة البصرية
  • الاستشعار عن بُعد
  • تحليل الرسوم البيانية والجداول

وعلى معيار ArabicMMLU، وهو معيار نصّي عربي يغطي 19 تخصصاً أكاديمياً تمتد من المحاسبة إلى الفيزياء، تحسّن أداء نموذج AIN  مقارنةً بنموذجه الأساسي Qwen2-VL-7B  في 14 من أصل 19 مجالاً، محققاً مكسباً إجمالياً قدره 3 نقاط.

وبنفس الوقت حقق النموذج تحسّناً على جميع معايير الرؤية باللغة الإنجليزية وعددها 10، مع مكاسب وصلت إلى 12 نقطة في معيار MMBench ونحو 6 نقاط في ScienceQA.

وشمل التقييم مجالات متعددة، من بينها التعرّف على الأطعمة، والتشخيص الطبي، وتحديد إشارات الطرق، وتفسير الرسوم البيانية. وفي عدد من الحالات، تمكّن نموذج AIN  من التقاط تفاصيل لم ينتبه إليها المشاركون البشر، مثل عدّ هياكل محدّدة في صور الأقمار الصناعية أو تحديد شكل عنصر غذائي بدقة على أنه قرصي الشكل وليس دائرياً.

التقييم البشري: حين يرى النموذج ما لا يراه الإنسان

كما أجرى الباحثون تقييماً بشرياً شمل أكثر من 200 مشارك ناطق بالعربية من 17 دولة. وفي مقارنة عمياء، حيث لم يكن المشاركون على علم بالنموذج الذي أنتج الإجابات، فضّل 76% منهم إجابات نموذج AIN، مقابل 15% لصالح GPT-4o و9% لصالح LLaVA.

وشملت المهام:

  • التعرف على الطعام
  • تشخيص الصور الطبية
  • قراءة إشارات المرور
  • تحليل الرسوم البيانية

وفي بعض الحالات، أظهر النموذج دقة لافتة، مثل:

  • عدّ عناصر محددة في صور أقمار صناعية
  • التمييز الدقيق بين شكل “قرص” وشكل “دائرة”

مسألة اللهجات والقدرة على فهمها

أظهرت نتائج الاستبيان أن نحو ثلاثة أرباع المشاركين يفضّلون العربية الفصحى ويجدونها واضحة للقراءة والكتابة، فيما عبّر 11% عن ارتياحهم للفصحى مع ميلهم إلى استخدام لهجاتهم المحلية، بينما رأى نحو 4% فقط أن الفصحى صعبة.

وتعكس هذه النتائج طبيعة العربية باعتبارها ليست لغة واحدة موحدة، بل طيفاً يمتد من الفصحى إلى عشرات اللهجات الإقليمية التي تختلف بشكل ملحوظ في المفردات والقواعد والبنية الصوتية لدرجة أن متحدثاً من المغرب قد يواجه صعوبة في فهم متحدث من العراق، رغم إتقانهما القراءة والكتابة بالعربية الفصحى.

حتى الآن، يركّز نموذج “عين” على الفصحى، وهو خيار مدعوم بالبيانات في السياقات الرسمية والمهنية لكنه يفتح الباب أمام تحديات بحثية مستقبلية لتطوير نماذج تفهم اللهجات كما تُستخدم في الحياة اليومية.

لماذا يُعد “عين” مهماً؟

باستثناء اللغة الإنجليزية، تبقى الغالبية العظمى من لغات العالم، والبالغ عددها نحو 7000 لغة، خارج دائرة التمثيل الكافي، لا سيما في مجال الذكاء الاصطناعي متعدد الوسائط.

تحتل اللغة العربية موقعاً فريداً ضمن هذا السياق؛ فهي ليست لغة منخفضة الموارد بالمعنى التقليدي، نظراً لتوفر كم معتبر من البيانات النصية، لكنها في الوقت ذاته تعاني من نقص واضح في البيانات المزدوجة التي تجمع بين الصورة والنص، وهي أساس بناء النماذج متعددة الوسائط.

من هنا، يقدّم نموذج “عين” دليلاً عملياً على أن التقدم في الذكاء الاصطناعي لا يعتمد فقط على توسيع حجم النماذج، بل على جودة البيانات ومنهجية بنائها. فقد أظهر أن استثماراً مدروساً في تنظيم البيانات، وبناء بنية تحتية للترجمة، وتطبيق آليات دقيقة لضبط الجودة — عند توظيفه فوق نموذج مفتوح المصدر — يمكن أن يحقق نتائج تنافس، بل وتتجاوز، الأنظمة الأكبر والأكثر كلفة في المهام المرتبطة باللغة العربية.

ولا تقتصر دلالة هذه النتيجة على العربية وحدها، بل تمتد إلى لغات أخرى تواجه تحديات مشابهة مثل الأوردية والبنغالية والسواحيلية. إذ يشير هذا النهج إلى أن الطريق نحو ذكاء اصطناعي متعدد اللغات بحق قد لا يمر عبر نماذج أضخم تتمحور حول الإنجليزية، بل عبر عمل دقيق ومخصص على البيانات لكل لغة على حدة، يأخذ في الاعتبار خصائصها اللغوية والثقافية.

وبذلك، قد يكون “عين” نموذجاً موجهاً للغة واحدة، لكن الإطار المنهجي الذي يقدّمه — القائم على أولوية جودة البيانات وبنائها بوعي — قد يكون أكثر قيمة من النموذج نفسه، لما يفتحه من إمكانيات لتوسيع نطاق الذكاء الاصطناعي ليشمل لغات وثقافات لم تكن ممثلة بالشكل الكافي من قبل.

منظومة متكاملة: من النموذج إلى بيئة التقييم

لا يأتي “عين” كجهد منفصل، بل ضمن منظومة بحثية متكاملة تقودها جامعة محمد بن زايد للذكاء الاصطناعي، وتشارك في تطويرها فرق متخصصة، من بينها فرق بقيادة الدكتور راو أنور والبروفيسور سلمان خان.

وقد ركّزت هذه الجهود على بناء بنية تقييم كاملة للنماذج متعددة الوسائط باللغة العربية، من خلال تطوير مجموعة من المعايير (benchmarks) التي تستهدف التحديات الفريدة للغة العربية، وقد حظيت هذه المعايير بقبول في أبرز المؤتمرات العالمية في معالجة اللغات الطبيعية.

فمعيار CAMEL-Bench، المستخدم في تقييم نموذج “عين”، قُبل في مؤتمر فرع أمريكا الشمالية لجمعية اللغويات الحاسوبية 2025، وكان بمثابة نقطة انطلاق لهذا المسار البحثي.

وتلاه تطوير KITAB-Bench، المتخصص في التعرف الضوئي على النصوص العربية وفهم المستندات، والذي قُبل في المؤتمر السنوي لجمعية اللغويات الحاسوبية 2025، ويختبر قدرات النماذج على التعامل مع تحديات مثل النص العربي المتصل، واتجاه الكتابة من اليمين إلى اليسار، والتراكيب الخطية المعقدة.

كما يشمل هذا الجهد معيار ARB (Arabic Reasoning Benchmark)، الذي يتعمق في تقييم قدرات الاستدلال متعدد الخطوات باللغة العربية، كاشفاً عن صعوبات تواجه حتى النماذج المتقدمة عند الانتقال من التفكير باللغة الإنجليزية إلى العربية.

وفي سياق أكثر تخصصاً، يأتي DuwatBench، الذي قُبل في مؤتمر الفرع الأوروبي لجمعية اللغويات الحاسوبية 2026، ويركز على التعرف على الخط العربي بمختلف أنواعه، من الكوفي إلى الديواني، بما يحمله ذلك من تعقيد بصري وثقافي.

إلى جانب هذه المعايير، طُوّرت مجموعة بيانات مثل TimeTravel  لدعم هذه المهام، في إطار محاولة شاملة لبناء بيئة تقييم تعكس الخصوصية اللغوية والثقافية العربية.

وقد لاقت هذه المنظومة اهتماماً متزايداً في المجتمع البحثي، حيث تجاوزت تحميلات CAMEL-Bench 30 ألفاً، و  KITAB-Bench 27 ألفاً، بينما حقق ARB  آلاف التحميلات، وسجل “عين” نحو مليون تحميل على منصة Hugging Face خلال عام واحد.

وتكشف هذه الأرقام مجتمعة عن إدراك مبكر لدى الفريق البحثي بأن نموذجاً واحداً  مهما بلغت قدراته  لا يكفي بمفرده. فبناء أنظمة ذكاء اصطناعي للغات التي تعاني نقصاً في الموارد يتطلب إنشاء منظومة تقييم متكاملة تحيط بالنموذج، تشمل معايير تحدد ماهية الأداء الجيد، ومجموعات بيانات تكشف مواطن القصور، إلى جانب مراعاة الخصوصية اللغوية والثقافية التي لا يمكن للترجمات الجاهزة أن تعوّضها.

أخبار ذات صلة

thumbnail
الأربعاء، 06 مايو 2026

من هندسة الكهرباء إلى ريادة أبحاث الرؤية الحاسوبية

في طليعة مرحلة جديدة من أبحاث الذكاء الاصطناعي، يسعى محمد معاذ إلى الارتقاء بقدرات نماذج الرؤية الحاسوبية.....

  1. الرؤية الحاسوبية ,
  2. النماذج اللغوية الكبيرة ,
  3. النماذج التأسيسية ,
  4. الدكتوراه ,
  5. متعدد الوسائط ,
  6. حفل التخرج ,
  7. دفعة 2026 ,
اقرأ المزيد