في الوقت الذي تتسارع فيه وتيرة تطوير النماذج المتقدمة في الذكاء الاصطناعي، لا تزال فجوة لغوية واضحة تفصل بين اللغات العالمية الكبرى وبقية لغات العالم، فبينما تتلقى الإنجليزية النصيب الأكبر من البيانات والاستثمار والبحث، تبقى لغات عديدة من بينها العربية أقل تمثيلاً في النماذج المتقدمة، رغم ثقلها الديموغرافي والثقافي.
تُستخدم العربية من قبل أكثر من 400 مليون شخص في أكثر من عشرين دولة، وهي إحدى أقدم لغات الإنتاج الأدبي في العالم، فضلاً عن كونها لغة عمل في اقتصادات كبرى إلا أن حضورها في نماذج الذكاء الاصطناعي المتقدمة، خصوصاً متعددة الوسائط، لا يزال دون مستوى هذا الامتداد.
صُممت النماذج متعددة الوسائط القادرة على قراءة الوثائق، وتحليل الصور الطبية، وتفسير صور الأقمار الصناعية، والإجابة عن الأسئلة المرتبطة بالصور في الغالب باللغة الإنجليزية، وبدرجة أقل للصينية. ورغم التقدّم الذي أحرزه الذكاء الاصطناعي العربي في معالجة النصوص، فإن النماذج التي تجمع بين الرؤية واللغة بالعربية لا تزال نادرة، وما هو متاح منها لا يعكس إلا شريحة محدودة من التعقيد اللغوي للعربية، سواء على مستوى البنية الصرفية أو النحوية أو الصوتية، أو من حيث التنوع الأسلوبي وتعدد اللهجات.
في هذا السياق، يعمل فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي، بقيادة طالب ماجستير العلوم أحمد هيكل وطالبة الدكتوراه سارة غبورة، على تطوير نموذج متعدد الوسائط يعرف باسم AIN اختصاراً لعبارة Arabic INclusive Multimodal Model، ويحمل في الوقت ذاته معنى “العين”، في إشارة مباشرة إلى الرؤية بوصفها جوهر هذه الفئة من النماذج.
النموذج، الذي يضم 7 مليارات معلمة، قادر على معالجة النصوص والصور معاً باللغتين العربية والإنجليزية. ووفقاً لتقرير تقني حديث، تفوق “عين” على نموذج GPT-4o ، رغم كونه أصغر حجماً بفارق كبير، بمتوسط قدره 3.4 نقاط مئوية عبر 38 مهمة فرعية باللغة العربية موزعة على ثمانية مجالات، تشمل الإجابة عن الأسئلة البصرية، والتعرف الضوئي على النصوص، والتصوير الطبي، وتشخيص أمراض المحاصيل، وتحليل استخدامات الأراضي عبر صور الأقمار الصناعية.
غير أن ما يجعل مشروع “عين” مهماً لا يقتصر على هذه النتيجة، بل يشمل أيضاً ما تطلّب الوصول إليها: بناء منظومة متكاملة لإنتاج بيانات تدريبية عربية متعددة الوسائط عالية الجودة من الصفر.
في حالة اللغة الإنجليزية، تُعد عملية بناء نموذج متعدد الوسائط مشكلة “غنية بالبيانات”، حيث تتوفر ملايين الأزواج من الصور والنصوص عبر الإنترنت المفتوح والمجموعات البحثية. أما في العربية، فإن مثل هذه الوفرة غير موجودة.
ولا تتعلق المشكلة فقط بندرة البيانات، بل بطبيعتها أيضاً إذ يتطلب تدريب النماذج متعددة الوسائط توافقاً دقيقاً بين الصورة والنص، وهو أمر يصعب تحقيقه على نطاق واسع باللغة العربية.
لمواجهة هذا التحدي، قام فريق “عين” ببناء مجموعة بيانات تضم 3.6 مليون عينة متعددة الوسائط تجمع بين العربية والإنجليزية. وشكّلت البيانات العربية “الأصيلة” أي المكتوبة بالعربية من الأصل نحو 35% منها، بينما جرى إنتاج البقية عبر ترجمة مجموعات بيانات إنجليزية إلى العربية الفصحى.
بدأ الفريق بتقييم ثلاثة نماذج من عائلة GPT-4 لاستخدامها كمحرّكات للترجمة: GPT-4 وGPT-4o وGPT- 4o-mini وقام متحدثون أصليون باللغة العربية بتقييم النتائج مقارنة بترجمات بشرية مرجعية. وجاء GPT-4o-mini في الصدارة، حيث أظهر اتساقاً أعلى ودقة أفضل في التعامل مع الأسماء الخاصة مثل “Boeing” مقارنة بـ GPT-4o، الذي كان يُسقط هذه الأسماء أو يشوهها في بعض الحالات.
لكن الترجمة وحدها لم تكن كافية. لذلك، صمم الفريق منظومة تحقق متعددة المراحل.
في المرحلة الأولى، استخدموا نموذج LaBSE، وهو نموذج تمثيل دلالي مستقل عن اللغة، لقياس درجة التشابه بين النصوص الأصلية وترجماتها. وقد تم اختياره بعد تقييم مقارن مع خمسة نماذج متعددة اللغات باستخدام مجموعة جمل عربية صُممت خصيصاً لاختبار أنماط إخفاق محددة، مثل:
وأثبت LaBSE موثوقية عالية، إذ أتاح استبعاد الترجمات التي تقل درجة تطابقها عن 80%، وهي نسبة لم تتجاوز 2% من إجمالي البيانات.
في المرحلة الثانية، استخدم الفريق آلية “الدورة الكاملة”، حيث أُعيدت ترجمة النصوص العربية إلى الإنجليزية باستخدام GPT-4o-mini، ثم قورنت النتائج بالأصل باستخدام مقاييس BLEU وMETEOR وROUGE. وأظهرت النتائج جودة مرتفعة في الحفاظ على المعنى، حيث بلغ METEOR نحو 86% وتجاوز ROUGE-L نسبة 85%.
أما الصور، فقد خضعت لفحص دقيق باستخدام LLaVA-Guard بالتكامل مع GPT-4o، ما أدى إلى استبعاد نحو 4.4% من الصور بسبب احتوائها على محتوى ضار، مثل العنف أو الأسلحة أو إساءة المعاملة أو القسوة على الحيوانات.
تعكس هذه المنهجية فكرة جوهرية: في غياب الوفرة، يمكن للتنظيم الدقيق وآليات التحقق الصارمة أن تعوّض عن النقص في الحجم.
يعتمد نموذج “عين” على البنية Qwen2-VL-7B، وهو نموذج مفتوح المصدر طوّره فريق Qwen التابع لشركة علي بابا. وقد أجرى فريق جامعة محمد بن زايد للذكاء الاصطناعي عملية ضبط دقيق كاملة لجميع المعلمات باستخدام مجموعة البيانات الثنائية اللغة.
تم التدريب باستخدام 64 وحدة معالجة رسومية من نوع NVIDIA A100 موزعة على ثماني عقد حوسبية، ضمن إعداد قابل لإعادة الإنتاج، ما يتيح للباحثين الآخرين إعادة التجربة والتحقق من النتائج.
استخدم الفريق أيضاً تقنيات مثل flash attention وتقنيات Liger لتقليل استهلاك الذاكرة وتحسين كفاءة المعالجة، كما اعتمد إعدادات المعاملات الفائقة من منصة LLaMA-Factory مفتوحة المصدر، ما ساهم في تحقيق توازن دقيق بين الأداء والكفاءة خلال عملية التدريب.
ومن التحديات المهمة التي عالجها الفريق الفجوة بين بيانات التدريب وبيانات الاستخدام الواقعي. فالصور المستخدمة في التدريب تكون عادة نقية وعالية الجودة، بينما الصور في الواقع تكون مضغوطة ومتدهورة نتيجة دورات التحميل والتنزيل المتكررة.
ولمعالجة هذا التباين، قام الفريق بتطبيق أسلوب “الضغط مع الفقد” أثناء التدريب، حيث خضعت 25% من الصور لضغط JPEG عشوائي متعدد المراحل قبل إدخالها للنموذج، مما ساهم في محاكاة ظروف الاستخدام الواقعي وتحسين أداء النموذج في البيئات الحقيقية.
على معيار CAMEL-Bench، وهو معيار شامل للغة العربية يضم 38 مجالاً فرعياً، حقق AIN-7B نتيجة إجمالية بلغت 63.77%، مقارنة بـ 60.13% لـ GPT-4o و52.38% لـ Gemini 1.5 Pro.
وسجّل أقوى أداء له في مهام التعرف الضوئي على النصوص وفهم المستندات، حيث بلغ 72.35%، متفوقاً بفارق كبير على GPT-4o.
كما أظهر تفوقاً في مهام:
وعلى معيار ArabicMMLU، وهو معيار نصّي عربي يغطي 19 تخصصاً أكاديمياً تمتد من المحاسبة إلى الفيزياء، تحسّن أداء نموذج AIN مقارنةً بنموذجه الأساسي Qwen2-VL-7B في 14 من أصل 19 مجالاً، محققاً مكسباً إجمالياً قدره 3 نقاط.
وبنفس الوقت حقق النموذج تحسّناً على جميع معايير الرؤية باللغة الإنجليزية وعددها 10، مع مكاسب وصلت إلى 12 نقطة في معيار MMBench ونحو 6 نقاط في ScienceQA.
وشمل التقييم مجالات متعددة، من بينها التعرّف على الأطعمة، والتشخيص الطبي، وتحديد إشارات الطرق، وتفسير الرسوم البيانية. وفي عدد من الحالات، تمكّن نموذج AIN من التقاط تفاصيل لم ينتبه إليها المشاركون البشر، مثل عدّ هياكل محدّدة في صور الأقمار الصناعية أو تحديد شكل عنصر غذائي بدقة على أنه قرصي الشكل وليس دائرياً.
التقييم البشري: حين يرى النموذج ما لا يراه الإنسان
كما أجرى الباحثون تقييماً بشرياً شمل أكثر من 200 مشارك ناطق بالعربية من 17 دولة. وفي مقارنة عمياء، حيث لم يكن المشاركون على علم بالنموذج الذي أنتج الإجابات، فضّل 76% منهم إجابات نموذج AIN، مقابل 15% لصالح GPT-4o و9% لصالح LLaVA.
وشملت المهام:
وفي بعض الحالات، أظهر النموذج دقة لافتة، مثل:
أظهرت نتائج الاستبيان أن نحو ثلاثة أرباع المشاركين يفضّلون العربية الفصحى ويجدونها واضحة للقراءة والكتابة، فيما عبّر 11% عن ارتياحهم للفصحى مع ميلهم إلى استخدام لهجاتهم المحلية، بينما رأى نحو 4% فقط أن الفصحى صعبة.
وتعكس هذه النتائج طبيعة العربية باعتبارها ليست لغة واحدة موحدة، بل طيفاً يمتد من الفصحى إلى عشرات اللهجات الإقليمية التي تختلف بشكل ملحوظ في المفردات والقواعد والبنية الصوتية لدرجة أن متحدثاً من المغرب قد يواجه صعوبة في فهم متحدث من العراق، رغم إتقانهما القراءة والكتابة بالعربية الفصحى.
حتى الآن، يركّز نموذج “عين” على الفصحى، وهو خيار مدعوم بالبيانات في السياقات الرسمية والمهنية لكنه يفتح الباب أمام تحديات بحثية مستقبلية لتطوير نماذج تفهم اللهجات كما تُستخدم في الحياة اليومية.
باستثناء اللغة الإنجليزية، تبقى الغالبية العظمى من لغات العالم، والبالغ عددها نحو 7000 لغة، خارج دائرة التمثيل الكافي، لا سيما في مجال الذكاء الاصطناعي متعدد الوسائط.
تحتل اللغة العربية موقعاً فريداً ضمن هذا السياق؛ فهي ليست لغة منخفضة الموارد بالمعنى التقليدي، نظراً لتوفر كم معتبر من البيانات النصية، لكنها في الوقت ذاته تعاني من نقص واضح في البيانات المزدوجة التي تجمع بين الصورة والنص، وهي أساس بناء النماذج متعددة الوسائط.
من هنا، يقدّم نموذج “عين” دليلاً عملياً على أن التقدم في الذكاء الاصطناعي لا يعتمد فقط على توسيع حجم النماذج، بل على جودة البيانات ومنهجية بنائها. فقد أظهر أن استثماراً مدروساً في تنظيم البيانات، وبناء بنية تحتية للترجمة، وتطبيق آليات دقيقة لضبط الجودة — عند توظيفه فوق نموذج مفتوح المصدر — يمكن أن يحقق نتائج تنافس، بل وتتجاوز، الأنظمة الأكبر والأكثر كلفة في المهام المرتبطة باللغة العربية.
ولا تقتصر دلالة هذه النتيجة على العربية وحدها، بل تمتد إلى لغات أخرى تواجه تحديات مشابهة مثل الأوردية والبنغالية والسواحيلية. إذ يشير هذا النهج إلى أن الطريق نحو ذكاء اصطناعي متعدد اللغات بحق قد لا يمر عبر نماذج أضخم تتمحور حول الإنجليزية، بل عبر عمل دقيق ومخصص على البيانات لكل لغة على حدة، يأخذ في الاعتبار خصائصها اللغوية والثقافية.
وبذلك، قد يكون “عين” نموذجاً موجهاً للغة واحدة، لكن الإطار المنهجي الذي يقدّمه — القائم على أولوية جودة البيانات وبنائها بوعي — قد يكون أكثر قيمة من النموذج نفسه، لما يفتحه من إمكانيات لتوسيع نطاق الذكاء الاصطناعي ليشمل لغات وثقافات لم تكن ممثلة بالشكل الكافي من قبل.
لا يأتي “عين” كجهد منفصل، بل ضمن منظومة بحثية متكاملة تقودها جامعة محمد بن زايد للذكاء الاصطناعي، وتشارك في تطويرها فرق متخصصة، من بينها فرق بقيادة الدكتور راو أنور والبروفيسور سلمان خان.
وقد ركّزت هذه الجهود على بناء بنية تقييم كاملة للنماذج متعددة الوسائط باللغة العربية، من خلال تطوير مجموعة من المعايير (benchmarks) التي تستهدف التحديات الفريدة للغة العربية، وقد حظيت هذه المعايير بقبول في أبرز المؤتمرات العالمية في معالجة اللغات الطبيعية.
فمعيار CAMEL-Bench، المستخدم في تقييم نموذج “عين”، قُبل في مؤتمر فرع أمريكا الشمالية لجمعية اللغويات الحاسوبية 2025، وكان بمثابة نقطة انطلاق لهذا المسار البحثي.
وتلاه تطوير KITAB-Bench، المتخصص في التعرف الضوئي على النصوص العربية وفهم المستندات، والذي قُبل في المؤتمر السنوي لجمعية اللغويات الحاسوبية 2025، ويختبر قدرات النماذج على التعامل مع تحديات مثل النص العربي المتصل، واتجاه الكتابة من اليمين إلى اليسار، والتراكيب الخطية المعقدة.
كما يشمل هذا الجهد معيار ARB (Arabic Reasoning Benchmark)، الذي يتعمق في تقييم قدرات الاستدلال متعدد الخطوات باللغة العربية، كاشفاً عن صعوبات تواجه حتى النماذج المتقدمة عند الانتقال من التفكير باللغة الإنجليزية إلى العربية.
وفي سياق أكثر تخصصاً، يأتي DuwatBench، الذي قُبل في مؤتمر الفرع الأوروبي لجمعية اللغويات الحاسوبية 2026، ويركز على التعرف على الخط العربي بمختلف أنواعه، من الكوفي إلى الديواني، بما يحمله ذلك من تعقيد بصري وثقافي.
إلى جانب هذه المعايير، طُوّرت مجموعة بيانات مثل TimeTravel لدعم هذه المهام، في إطار محاولة شاملة لبناء بيئة تقييم تعكس الخصوصية اللغوية والثقافية العربية.
وقد لاقت هذه المنظومة اهتماماً متزايداً في المجتمع البحثي، حيث تجاوزت تحميلات CAMEL-Bench 30 ألفاً، و KITAB-Bench 27 ألفاً، بينما حقق ARB آلاف التحميلات، وسجل “عين” نحو مليون تحميل على منصة Hugging Face خلال عام واحد.
وتكشف هذه الأرقام مجتمعة عن إدراك مبكر لدى الفريق البحثي بأن نموذجاً واحداً مهما بلغت قدراته لا يكفي بمفرده. فبناء أنظمة ذكاء اصطناعي للغات التي تعاني نقصاً في الموارد يتطلب إنشاء منظومة تقييم متكاملة تحيط بالنموذج، تشمل معايير تحدد ماهية الأداء الجيد، ومجموعات بيانات تكشف مواطن القصور، إلى جانب مراعاة الخصوصية اللغوية والثقافية التي لا يمكن للترجمات الجاهزة أن تعوّضها.
يرى خريج الرؤية الحاسوبية في جامعة محمد بن زايد للذكاء الاصطناعي ومؤسس شركة Y71 أن القيمة الحقيقية.....
بعد ستة أعوام من الإنجاز العلمي المتسارع والتأثير العالمي، الحاصلة على المرتبة الأولى على دفعة عام 2026.....
في طليعة مرحلة جديدة من أبحاث الذكاء الاصطناعي، يسعى محمد معاذ إلى الارتقاء بقدرات نماذج الرؤية الحاسوبية.....