إذا تابعت عدداً كافياً من العروض التوضيحية لأنظمة الذكاء الاصطناعي المساعدة القادرة على تصفح الإنترنت، فربما لاحظت أمراً لافتاً، وهو أن معظم هذه العروض تتجاهل تماماً مسألة اجتياز اختبارات “CAPTCHA”. وهذا التجاهل ليس وليد الصدفة. فالأنظمة المساعدة المتطورة والمتعددة الوسائط اليوم تستطيع الإجابة عن أسئلة الامتحانات، ووصف الصور، وكتابة التعليمات البرمجية. لكنها عندما تواجه متصفحاً حقيقياً ويُطلب منها اجتياز اختبار من نوع “هل أنت إنسان؟”، تظهر حدود قدراتها بوضوح.
لفهم الأسباب التي تجعل هذه الأنظمة عاجزة عن التعامل مع اختبارات “CAPTCHA”، طوّر طالبا الدكتوراه في جامعة محمد بن زايد للذكاء الاصطناعي، ياكسين لو وتشاو يي لي، معيار اختبار جديد اسمه “Open CaptchaWorld”، ونشرا نتائج عملهما في ورقة بحثية جديدة قُدّمت إلى المؤتمر السنوي لنظم معالجة المعلومات العصبية 2025.
“Open CaptchaWorld” هي مجموعة بيانات معيارية مفتوحة مستمدة من الإنترنت يُطلب فيها من أنظمة الذكاء الاصطناعي المساعدة حل اختبار بصري، والاستدلال عبر خطوات متعددة، والتفاعل الفعلي مع الصفحة من خلال النقر والسحب وتدوير العناصر إلى أن تنجح في حل اختبار “CAPTCHA”. وبينما ينجح البشر في اجتياز هذه الاختبارات بدقة تصل إلى 93.3%، فإن أفضل الأنظمة المساعدة لا تتجاوز نسبة نجاحها 40%.
يرجع سبب تطوير هذه المجموعة المعيارية إلى فكرة بسيطة مفادها أنه إذا أُريد لأنظمة الذكاء الاصطناعي المساعدة أن تؤدي مهامها في العالم الحقيقي، فلا يمكن تقييم أدائها ضمن بيئات اختبار معزولة تُستبعد منها اختبارات “CAPTCHA”. فهذه الاختبارات تحديداً تمثل النقطة التي تصطدم فيها الأتمتة بالتعقيدات الحقيقية على شبكة الإنترنت، مثل الواجهات التي تتغير حالتها، وعناصر التحكم الصغيرة، والإشارات البصرية الغامضة، والتعليمات التي تتطلب تخطيطاً بديهياً.
يتحدث ياكسين لو عن بداية هذا المشروع البحثي قائلاً: “كنّا في الأصل نعمل على تطوير نظام ذكاء اصطناعي مساعد للتسوق عبر الإنترنت، ولاحظنا أن نماذجنا، رغم قدرتها على التعامل مع طلبات المستخدم المعقدة، كانت تتعثر باستمرار عند مراحل تسجيل الدخول أو إتمام الشراء بسبب اختبارات “CAPTCHA”. كان النظام يدخل في حلقة متكررة من تحديث الصفحة، والفشل في حل الاختبار، ثم المحاولة من جديد، لأنه يفتقر إلى مهارات التفاعل الدقيقة اللازمة لتجاوز هذه المرحلة. وهنا أدركنا أن اختبارات “CAPTCHA” تقوم بدور البواب لمعظم الأنشطة ذات القيمة المرتفعة على الإنترنت، مثل التجارة الإلكترونية، وحجز التذاكر، وتسجيل الدخول الآمن. وإذا لم يتمكن نظام الذكاء الاصطناعي المساعد من تجاوزها، فلا يمكن استخدامه في العالم الحقيقي. عندما بحثنا في أسباب ذلك، وجدنا أن مجموعات البيانات المعيارية الشائعة، مثل “AgentBench” و”VisualWebArena”، تستبعد عمداً الصفحات التي تتضمن اختبارات “CAPTCHA”، لأنها تعتبرها ضجيجاً يجب إزالته وليس قدرة أساسية ينبغي اختبارها”.
تشمل مجموعة البيانات المعيارية “Open CaptchaWorld” عشرين نوعاً حديثاً من اختبارات “CAPTCHA” تتراوح بين مهام من قبيل “اختيار جميع المربعات التي تحتوي على حافلة”، والسحب على شريط التمرير، والمحاذاة على نمط قطع الأحجية، والنقر المتسلسل، والعدّ وإجراء العمليات الحسابية على الرموز، وصولاً إلى مؤقتات الضغط المستمر حتى الاكتمال.
وتُنفَّذ جميع هذه الاختبارات داخل متصفح الإنترنت في حلقة تفاعلية، حيث تطّلع أنظمة الذكاء الاصطناعي المساعدة على لقطات من الشاشة، وتحافظ على خطة عمل متواصلة، وتنفّذ إجراءات دقيقة خطوة بخطوة إلى أن تضغط زر “إرسال”. ويحوّل هذا التصميم عملية التقييم من إدراك بصري لحظي إلى نهج تفاعلي متعدد المراحل لحل المشكلات.
ولجعل مستوى الصعوبة قابلاً للقياس، قدّم الفريق مفهوماً جديداً هو “عمق الاستدلال في اختبارات CAPTCHA”، وهو مقياس مستقل عن نوع المهمة يحسب الحد الأدنى لعدد الخطوات الإدراكية والحركية التي يحتاجها الإنسان لحل الاختبار. ويمكن تصور هذه الخطوات على النحو التالي: “تحديد الرمز الصحيح”، “تخطيط التسلسل”، “النقر على الأهداف”، “التحقق من استجابة واجهة الاستخدام”، على أن تُحتسب كل خطوة مرة واحدة إذا كانت تسهم فعلياً في الحل. يبلغ متوسط هذا العمق على مستوى مجموعة البيانات المعيارية نحو 2.94 خطوة، مع تباين ملحوظ، ما يعكس طبيعة اختبارات تبدو بسيطة للبشر، لكنها تتطلب من الأنظمة المساعدة تحكماً منظماً ومتدرجاً خطوة بخطوة.
تبرز ملاحظة سلوكية لافتة عند مقارنة الشروح. فالبشر يدمجون الخطوات الجزئية المألوفة ويحوّلونها إلى حدس سريع (“حدد التسلسل، انقر بالترتيب، وانتهى الأمر”)، بينما تميل النماذج المتقدمة مثل النموذج “OpenAI o3” إلى تقسيم المهمة الواحدة إلى عدد كبير من الخطوات التفصيلية (“تعرّف على الرمز 1، خزّنه في الذاكرة العاملة، انقر، تحقّق من الاستجابة… كرر”)، ما يرفع تقديرها لعمق المهمة ويزيد عملياً من احتمالات ارتكاب الأخطاء. وتتكرر هذه الفجوة بين الحدس من جهة والتعداد الهشّ من جهة أخرى في حالات الإخفاق المختلفة.
من الناحية الفنية، تضع الورقة البحثية كل اختبار ضمن إطار رياضي يُعرف باسم “عملية قرار ماركوف الملاحظة جزئياً”، حيث تُعدّ صفحة الإنترنت حالة لا يمكن ملاحظتها بالكامل، وتكون الأفعال عمليات منفصلة على واجهة الاستخدام (مثل النقر والسحب والكتابة)، وتمثل الملاحظات لقطات الشاشة، بينما تتمثل المكافأة في النجاح أو الفشل. وبذلك يتعين على أنظمة الذكاء الاصطناعي المساعدة استنتاج “اعتقاد” بشأن العناصر المهمة على الصفحة، وتخطيط سلسلة قصيرة من الخطوات، ثم تنفيذها بدقة تكفي لجعل حالة الواجهة تتغير بالشكل الذي تتوقعه. وخلافاً لمهام الإجابة عن الأسئلة المتعلقة بالرؤية، توفّر مجموعة البيانات المعيارية “Open CaptchaWorld” تحكماً في حلقة مغلقة توظَّف فيه الرؤية واللغة لخدمة الفعل والتنفيذ. وقد قيّم الباحثون مجموعة من الأنظمة المساعدة المستخدمة في تصفح الإنترنت عبر استبدال عدة نماذج لغوية كبيرة متعددة الوسائط ضمن واجهة موحّدة للتوجيه والتنفيذ. وشملت هذه النماذج “OpenAI o3″ و”GPT-4″ و”Claude 3.7 Sonnet” و”Gemini 2.5 Pro” و”DeepSeek-V3″.
تقترب عدة نماذج عامة قوية من الأداء العشوائي في الاختبارات المعقدة. ومع ذلك فإن أفضل النماذج أداءً في هذه الحالة هو أيضاً أعلاها تكلفة (حوالي 66.4 دولاراً لاجتياز سلسلة كاملة). وبينما تسهم النماذج الأقل تكلفة في خفض ميزانية التشغيل، فإن دقتها أقل بكثير. أي أن استخدام أنظمة الذكاء الاصطناعي المساعدة اليوم محكوم بمفاضلة كبيرة بين التكلفة والدقة.
يقول لو في سياق حديثه عن الصعوبات التي تواجه هذه الأنظمة: “كنا نتوقع أن تواجه أنظمة الذكاء الاصطناعي المساعدة الحالية صعوبة في التعرّف البصري، لكن ما فاجأنا فعلاً هو طريقة فشلها. ففي الغالب لم تكن المشكلة نقصاً في المعرفة، بل نقصاً في الحدس والتحكم الحركي. وكما أوضحنا في ورقتنا البحثية، كشفت مراجعة حالات الإخفاق عن ثلاث ملاحظات محددة لفتت انتباهنا بشدة”.
تقدم الأنظمة القوية أداءً جيداً في مهام الإدراك منخفضة العمق، ويمكنها أحياناً التعامل مع مهام مركبة مثل المطابقة كما في لعبة “بينغو” أو عدّ النقاط على اللوحة في لعبة رمي السهام، والتي تتطلب قدراً بسيطاً من الحساب. لكن ثلاثة أنماط من الفشل تتكرر بشكل كبير. في النمط الأول تكون الخطة صحيحة، لكنها تفتقر إلى الدقة في التنفيذ، حيث يضع النظام استراتيجية سليمة (مثلاً: “ضع نقطة عند نهاية مسار السيارة”)، ثم يخطئ في النقر بفارق عشرات نقاط البكسل بشكل متكرر. النمط الثاني هو العمليات الدقيقة، حيث تتطلب اختبارات السحب على شريط التمرير سحباً مضبوطاً ومحسوباً. ويفهم النظام الهدف، لكنه يفتقر إلى التحكم الدقيق للوصول إلى هامش السماح المطلوب. أما النمط الثالث فهو انحراف الاستراتيجية، ففي بعض مهام مطابقة العناصر، يلتقط النظام إشارات ليس لها صلة مثل أسماء ملفات الصور أو نص الصفحة بدلاً من الاعتماد على المحتوى المرئي، فينتهي به الأمر إلى حل مشكلة مختلفة عن المشكلة المطلوبة.
إحدى مزايا مجموعة البيانات المعيارية المستمدة من عملية تصفح فعلية أنها تتيح قراءة “مسار التفكير” لدى أنظمة الذكاء الاصطناعي المساعدة خطوة بخطوة. على سبيل المثال، عند استخدام النموذج “OpenAI o3” في مطابقة صورة ناجحة، ينتقل النظام بين الخيارات، ويتتبع ما توصل إليه (“وجدنا القط، إرسال”)، ثم ينهي المهمة بسلاسة. لكن يمكن أيضاً ملاحظته وهو يفشل في مهمة وضع النقطة، حيث يحدد الهدف النهائي بشكل صحيح، لكنه يواصل النقر قرب منتصف المسار، مما يشير إلى عدم التطابق بين الإدراك والتنسيق الحركي، وهو أمر يتداركه الإنسان تلقائياً. وعند السحب على شريط التمرير، يتأرجح النظام حول النقطة المطلوبة دون أن يثبت عليها. أما في مهام العدّ والمطابقة، فيبدأ باستخراج أسماء الملفات (“image19.png”) بدلاً من المحتوى، وهي حيلة لا تنجح إلا في العروض الاصطناعية. وهكذا، رغم أن القصد موجود، يغيب الحدس والمهارة الحركية.
لماذا تكشف هذه الاختبارات السهلة على البشر عن هذا القدر من مواطن الضعف العميقة؟ يبيّن الباحثون أن معظم تقييمات النماذج متعددة الوسائط لا تزال ثابتة وأحادية التفاعل، حيث تُعرض صورة واحدة ويُطلب من النموذج وصف محتواها. أما اختبارات “CAPTCHA” فهي آنية ومتغيرة: ملاحظة، ثم تخطيط، ثم تنفيذ، ثم ملاحظة مجدداً وتصحيح. وهي تتطلب ترابطاً محكماً بين التحليل البصري والتحكم الحركي، وتعاقب الأخطاء الصغيرة بعدم تغير الواجهة. بعبارة أخرى، تركز هذه الاختبارات على ما يحتاجه أي نظام ذكاء اصطناعي مساعد للعمل خارج المختبر، أي ذاكرة عاملة، وتخطيط تسلسلي، ودقة مكانية، ونزعة إلى البساطة الموجّهة نحو الهدف بدلاً من الإفراط في التفكير. ومن خلال توفير هذه المتطلبات، مع مقياس واضح للتعقيد (عمق الاستدلال)، ومتصفح حقيقي، ومجموعة اختبارات متنوعة، تقدم مجموعة البيانات المعيارية المفتوحة “Open CaptchaWorld” طريقة واقعية لقياس التقدم لا توفرها لوحات الترتيب المعتمدة على أسئلة وأجوبة ثابتة.
وترسم الورقة البحثية أيضاً مساراً عملياً نحو أنظمة أكثر كفاءة يشمل تحسين تتبّع الحالة لتجنّب إعادة شرح البديهيات، وضبط الرؤية لتحديد الأجسام الصغيرة حتى تقع النقرات داخل الخانات الصغيرة، وتطوير مهارات أساسية للتحكم الحركي تُصقل بناءً على التصحيحات (سحبات دقيقة، ضبط دقيق)، وتخطيطاً يدمج الخطوات الصغيرة المترابطة كما يفعل البشر بدلاً من تعدادها بالتفصيل. وربما يكون الأهم من ذلك كله أن يبقى التقييم تفاعلياً. فعند الاستخدام الفعلي للنظام، يؤدي النقر إلى تغيير الواجهة، وعندها تنكشف هشاشة الخطة وعدم دقة السحب. وبهذا تكون اختبارات “CAPTCHA”، رغم ما تشكله من إزعاج، اختباراً ممتازاً لهذا النوع من التحديات.
لقد قدمت مجموعات البيانات المعيارية مثل “WebArena” و”AgentBench” فوائد كبيرة، ولكن كثيراً منها يستبعد اختبارات “CAPTCHA” لأنها تعطّل تنفيذ المهام بشكل كامل. أما المجموعة الجديدة “Open CaptchaWorld”، فتفعل العكس تماماً، لأن إزالة عناصر موجودة في مواقع الإنترنت الحقيقية يعني أن هناك مبالغة في تقدير جاهزية أنظمة الذكاء الاصطناعي المساعدة للعمل في العالم الواقعي. فإدراج هذه العناصر يعيد تعريف مفهوم النجاح بحيث لا يكون السؤال “هل يستطيع النظام قراءة الصفحة؟”، بل “هل يستطيع إنجاز المهمة حتى النهاية؟” وهذا معيار أكثر صلة بالمنتجات، كما أنه يفرض نقاشاً صريحاً حول التكلفة إلى جانب القدرات. ففي النتائج الحالية، قد تقترن زيادة الدقة إلى الضعف بارتفاع تكلفة التشغيل حتى ثلاثة أضعاف. وإذا كان الهدف استخدام أنظمة مساعدة قادرة على تصفح الإنترنت على نطاق واسع، فلا بد من أخذ هذا الأمر في الحسبان.
هذا لا يعني الدعوة إلى التخلّي عن اختبارات “CAPTCHA”. فهي موجودة أساساً للحد من إساءة الاستخدام، وقد ناقش الباحثون صراحةً قضايا الحماية والآثار المجتمعية المرتبطة بها. ولكن مع تزايد الضغوط المرتبطة بإمكانية الوصول والأتمتة، ستحتاج أنظمة الذكاء الاصطناعي المساعدة إلى التعامل مع الضوابط البشرية دون اللجوء إلى حلول ملتوية أو تمرير المهام عبر واجهات برمجة تطبيقات مشبوهة. ولا تقدم مجموعات البيانات المعيارية حلاً لهذه المشكلة، لكن يمكنها إظهارها بوضوح وجعلها قابلة للمعالجة.
فيما يتعلّق بكيفية تطوّر هذا البحث مستقبلاً، يُبدي ياكسين لو حماساً كبيراً للخطوات القادمة، حيث يقول: “نريد التأكد من أن هذه المجموعة المعيارية لا تقيس قدرات النماذج الحالية فحسب، بل تشجع أيضاً على تطوير نماذج مستقبلية. ولتحقيق ذلك، أدركنا أن جمع اختبارات “CAPTCHA” الحالية وحده لا يكفي. ونخطط في المرحلة المقبلة لتصميم جيل جديد من اختبارات “CAPTCHA”.
ويضيف قائلاً: “مع تزايد قوة النماذج التأسيسية، تتقادم المجموعات المعيارية الثابتة بسرعة كبيرة. لذلك نخطط لأن نتجاوز مرحلة تجميع الاختبارات المتاحة على الإنترنت والبدء في تصميم اختبارات “CAPTCHA” جديدة ومصمَّمة خصيصاً للذكاء الاصطناعي. وسيتم إعداد هذه الاختبارات وهندستها خصيصاً لاختبار نقاط الضعف التي كشفنا عنها، مثل فجوة الحدس والتحكم الحركي الدقيق”.
ومن خلال القياس الدقيق لكيفية إخفاق أنظمة الذكاء الاصطناعي المساعدة ومواضع ذلك الإخفاق، تقدم مجموعة البيانات المعيارية “Open CaptchaWorld” للباحثين هدفاً واضحاً، وهو ردم فجوة الحدس، وتحسين دقة التحكم، وتعلّم تنفيذ الأفعال بنفس درجة الهدوء والكفاءة التي ينفذ بها البشر تلك الأفعال عندما يُطلب منهم ذلك، مثل عدّ إشارات المرور في صورة مجزأة.
باحثون يطوّرون نموذجًا متعدد الوسائط ومجموعة بيانات جديدة للتعرّف بدقة على أنواع الطيور باستخدام الصور والأصوات.
استضافت جامعة محمد بن زايد للذكاء الاصطناعي، بالتعاون مع مؤسسة أبوظبي للموسيقى والفنون، النسخة الرابعة من مبادرتها.....
إرينا غوريفيتش من جامعة محمد بن زايد للذكاء الاصطناعي تفوز بجائزة ميلنر 2025 من الجمعية الملكية البريطانية