كيف طوّرت جامعة محمد بن زايد للذكاء الاصطناعي نموذج PAN كنموذجٍ عام تفاعلي للعالم قادر على المحاكاة بعيدة المدى - MBZUAI MBZUAI

كيف طوّرت جامعة محمد بن زايد للذكاء الاصطناعي نموذج PAN كنموذجٍ عام تفاعلي للعالم قادر على المحاكاة بعيدة المدى

الخميس، 13 نوفمبر 2025

إذا طلبت اليوم من مولدات الفيديو أن تُنشئ لك مشهداً لطائرة مُسيّرة تحلّق فوق مدينة عند الغروب، فستحصل على مقطع يبدو سينمائياً، لكن إن طلبت منها الاستمرار في الطيران، ثم الانعطاف يساراً عند النهر، والميلان باتجاه أضواء الملعب، فإنها غالباً ما تتعثّر وتتوقف، والسبب أن معظم هذه الأنظمة ترسم صوراً ولا تبني عالماً، إذ إن القليل منها فقط قادر على الاحتفاظ بحالة متماسكة للعالم من لحظةٍ إلى أخرى، والاستجابة للأفعال، والحفاظ على الاتساق عبر الزمن، فهي قادرة على عرض الحركة، لكنها لا تفهم المعنى، لأنها تتنبأ باللقطات لا بالعالم المتغيّر نفسه.

وهذا تحديداً ما صُمّمت نماذج العالم للقيام به وهو أن تتخيّل العالم، وتتنبّأ به، وتستدلّ على كيفية تطوّره عندما نتدخّل فيه.

في هذا السياق، يقدّم نموذج  PAN، الذي طوّره معهد النماذج التأسيسية في جامعة محمد بن زايد للذكاء الاصطناعي، خطوةً مهمّةً باتجاه بناء نموذج عالمٍ تفاعلي، إذ يجمع بين الاستدلال المشروط باللغة ضمن فضاء كامن مدمج، وبين التنبؤ عالي الدقة بالفيديو مع الحفاظ على الاتساق عبر محاكاة طويلة الأمد، وبذلك لا يكتفي بإخراج صور مناسبة بصرياً، بل يفتح الباب أمام محاكاة مستقبل قابل للتوجيه، يمكن للمستخدم قيادته قراراً بعد قرار وبلغة طبيعية.

يرتكز التصميم الأساسي لنموذج PAN على بنية تُعرف باسم التنبؤ التوليدي في الفضاء الكامن (Generative Latent Prediction – GLP)، وهي بنية تجمع بين الاستدلال الداخلي في فضاء كامن وبين إشراف توليدي في المجال البصري، وبدلاً من محاولة التنبؤ بكل بكسل مباشرةً، يفصل PAN بين ما يحدث وبين كيف يبدو، إذ يقوم أولاً بتحديث حالة كامنة داخلية، وهي تمثيل منظّم يتذكر عناصر المشهد وحركتها، ويكون ذلك مشروطاً بالتاريخ السابق وبفعلٍ يُعبَّر عنه بلغة طبيعية مثل “قُد السيارة عبر غابة مغطاة بالثلج”.  

ثم يقوم بعد ذلك بفك ترميز الحالة الكامنة الناتجة إلى مقطع فيديو قصير يتيح مشاهدة التسلسل. إن تكرار هاتين الخطوتين في كل مرحلة يضمن أن يبقى خيال النموذج مرتبطاً بمشاهد قابلة للتحقّق بصرياً، وفي الوقت نفسه تبقى المخرجات البصرية مرتبطة بقصة سببية متماسكة عن العالم.

وتشير الورقة البحثية المنشورة على منصة arXiv إلى أن هذا النهج يختلف عن الأساليب الشائعة التي تعتمد على التشفير فقط، والتي تكتفي “بالتنبؤ بالتمثيل الكامن التالي”، وهي أساليب تُنتج انتقالات تعلّم تبدو مرتّبة في فضاء السمات، لكنها لا تتطابق بشكل نظيف مع ملاحظات واقعية قابلة للتصديق. في المقابل، يصرّ نهج التنبؤ التوليدي في الفضاء الكامن على إعادة بناء الملاحظة التالية، مما يحافظ على صدق هذه الانتقالات الكامنة وارتباطها بالواقع.

تتبع بنية PAN هيكل التنبؤ التوليدي في الفضاء الكامن. في هذه البنية، يحوّل مُشفّر بصري الملاحظة الحالية إلى حالة كامنة، ثم يعمل هيكل أساسي قائم على نموذج لغوي كبير على تطوير هذه الحالة عبر الزمن، بالاستناد إلى التاريخ السابق والأفعال المعبَّر عنها باللغة الطبيعية. بعد ذلك، يتولى مفكّك ترميز يعتمد على نشر الفيديو توليد الملاحظة التالية. ويستخدم هذا المفكّك آلية جديدة تُعرف باسم Causal Swin-DPM، وهي عملية إزالة ضجيج بنافذة منزلقة تحافظ على سلاسة الانتقالات وتحدّ من الانجراف التراكمي في المحاكاة طويلة الأمد. وباختصار، يتكفّل النموذج اللغوي بالحفاظ على سياق القصة، بينما يتولى نموذج النشر الإخراج البصري، وتضمن النافذة السببية استمرار تدفّق المشاهد بسلاسة.

لماذا يهمّ التقييم بقدر ما يهمّ التوليد

تتضمن الورقة أيضاً قسماً مهماً حول كيفية تقييم نماذج العالم، إذ يجادل المؤلفون بأن الحكم على نموذج عالم يتطلّب أكثر من مجرد حدة اللقطات. وبدلاً من ذلك، يقيسون ثلاثة معايير يرون أنها الأهم عند استخدام النموذج في الاستدلال أو التخطيط.

  • دقة محاكاة الأفعال، والتي تقيس مدى التزام النموذج بتنفيذ الأفعال المعبّر عنها باللغة، وقدرته على إظهار النتائج السببية الصحيحة المترتبة عليها.
  • التنبؤات بعيدة المدى، ويُعنى بتقييم سلاسة الانتقالات وثبات الجودة عند ربط عدد كبير من الأفعال المتتالية، مع معاقبة مظاهر الانجراف البطيء والتشوّهات التراكمية التي تقوّض قابلية التصديق مع امتداد أفق المحاكاة.
  • الاستدلال والمحاكاة لأغراض التخطيط، أي اختبار ما إذا كان بوسع وكيل خارجي استخدام نموذج العالم بوصفه بيئة تجريبية، يجري فيها تجارب ذهنية لاختيار الفعل التالي على الطريق نحو تحقيق هدف محدّد.

وبناءً على هذه المعايير، يُعدّ PAN من بين أفضل النماذج المتاحة ضمن الأنظمة مفتوحة المصدر، كما يقترب في أدائه من النماذج التجارية الرائدة، وتكمن أهمية ذلك في كونه يدعم تفاعلاً مفتوحاً مشروطاً بالأفعال، لا مجرد توليد فيديو دفعة واحدة.

يحقق PAN في اختبارات محاكاة الأفعال أعلى مستويات الدقة بين النماذج مفتوحة المصدر، سواء في سيناريوهات الوكلاء القابلين للتحكّم، حيث ينفّذ الكيان التعليمات دون الإخلال بخلفية المشهد، أو في سيناريوهات البيئات، حيث يكون التلاعب موجهاً إلى المشهد نفسه. أمّا في اختبارات المحاكاة بعيدة المدى، فيسجّل النموذج أفضل النتائج من حيث سلاسة الانتقالات واتساق المحاكاة، اعتماداً على مقاييس مستمدة من تحليل التدفق البصري وحزمة اختبارات للمتانة الزمنية، تركّز على الحفاظ على الاستمرارية ومقاومة التدهور مع امتداد أفق المحاكاة.

في سياق التخطيط القائم على المحاكاة، حيث يقترح عامل لغوي أفعالاً محتملة ويتولى نموذج العالم استعراض نتائجها مسبقاً، يحقق PAN تحسناً ملحوظاً في نجاح المهام مقارنة بالعامل اللغوي وحده، وكذلك مقارنةً بنماذج بديلة، سواء في سيناريوهات التفاعل المفتوحة أو في ترتيبات الطاولة المنظَّمة. ويخلص المؤلفون إلى أن الحفاظ على حالة متّسقة خطوةً بعد خطوة يمنح النموذج قدرة أفضل على التفكير الاستباقي.

في الواقع، يكمن الاختلاف الجوهري في PAN في سلوكه المتدرّج خطوةً بخطوة، بخلاف نماذج التوليد التي تنتقل مباشرةً من موجّه إلى فيديو كامل. ففي كل خطوة، يستوعب الهيكل الأساسي التاريخ المتراكم للعالم، والملاحظة الحالية، والفعل المقترح التالي، مثل: أمسك العلبة الصفراء من الرف الأوسط، أو انعطف إلى الطريق الحصوي، أو ارفع الذراع متجاوزاً النافذة الرابعة. ثم ينتج الحالة الكامنة التالية، ويقوم مفكّك الترميز بعدها بتوليد مقطع قصير ومتّسق، لتتكرر العملية على هذا النحو. وبما أن الحالات الكامنة تعيش في فضاء متعدد الوسائط يجمع بين الرؤية واللغة، فإنها تحمل تأصيلاً دلالياً، مثل: هذه لا تزال العلبة نفسها، أو السيارة تتجه الآن شمالاً، إلى جانب البنية الإدراكية. وهو ما يمكّن النموذج من الحفاظ على الهويات، وصون العلاقات المكانية، ونقل التأثيرات السببية عبر الزمن، دون التذبذب التراكمي المعتاد في هذا النوع من المحاكاة.

تفاعل طبيعي

يُعدّ نموذج PAN مناسباً على وجه الخصوص للتطبيقات التي تتطلّب سلوكياتِ “المعاينة قبل التنفيذ”. يمكن للفرق في مجال الروبوتات استخدام النموذج لتقييم أساليب الإمساك أو إعادة الترتيب المحتملة، قبل المخاطرة بتنفيذها فعلياً باستخدام ذراعٍ روبوتيةٍ قد تكون غير دقيقةٍ. كما يستطيع الباحثون في الأنظمة المستقلة التحقّق من سلامة المناورات في ظلّ ظروفٍ متغيّرةٍ، واستخدام اللغة لوصف مساراتٍ بديلةٍ واختبارها. وفي مجالاتٍ مثل اللوجستيات أو أعمال الفحص، يمكن لأدوات دعم القرار اختبار الفرضيات بصرياً، مثل: «ماذا يحدث إذا حرّكنا العربة خلف الصندوق ثم أدرناها باتجاه عقارب الساعة؟»، دون الحاجة إلى تشغيل محاكٍ فيزيائيٍّ ثقيلٍ لكلّ تغييرٍ بسيطٍ. ولا يتطلّب أيٌّ من ذلك أن يكون النموذج مثالياً من الناحية البصرية، بل يكفي أن يكون متّسقاً وسريعَ الاستجابة بما يمكّن حلقةَ التخطيط من التعلّم من مخرجاته. وتمثّل التحسينات التي حقّقها PAN في الاستقرار على المدى الطويل ودقّة تنفيذ الأفعال النوعَ نفسه من التطويرات التي تجعل هذه الحلقات قابلةً للتطبيق العمليّ.

وما يلفت النظر أكثر في PAN هو مدى طبيعية التفاعل معه، إذ لا حاجة إلى هندسة متحكّم، بل يكفي أن تصف ما تريد فيتكيّف العالم وفق ذلك. وهذا هو الوعد الأصلي الذي قامت عليه نماذج العالم، ليس مجرد عرض الإمكانات، بل الاستدلال على النتائج.

ومع PAN يضيق الفاصل بين اللغة والمحاكاة طويلة الأمد، ويصبح الاستخدام أقل شبهاً بتوجيه نموذج وأكثر شبهاً بمحادثة مع عالم يتذكّر ما حدث للتو ويتوقّع ما سيأتي لاحقاً.

أخبار ذات صلة