في لحظة مفصلية ضمن صيرورة تطور أحداث الشريط السينمائي ’ماتريكس‘، القصة الديستوبية ]أدب المدينة الفاسدة] التي تحاول فيها تكنولوجيا غاية في الذكاء إخضاع البشرية، يتحدث مورفيوس – زعيم البشر – إلى تلميذِهِ نيو ويخبره بأن هناك “فرقاً بين مجرد أن تعرف الطرِيق وأن تمضي فِيهَا”.
لا يوضح مورفيوس المعنى أو ما يقصده من خلال هذه الإفادة، غير أن واحداً من بين التفسيرات الممكنة لها، أن هناك فرقاً جوهرياً بين التفكير والفعل، والتأمل والعمل.
يمكن أيضاً لما قاله مورفيوس أن يُعبر في مجال الذكاء الاصطناعي عن الهوة الموجودة بين نظم الذكاء الاصطناعي التي تعتمد على البيانات – مثل النماذج اللغوية الكبيرة وبرامج الرؤية الحاسوبية – ونظم الذكاء الاصطناعي المُتَجسِّد، أو الروبوتات التي تتفاعل مع العالم الحقيقي ويجب أن تفسره وتتعامل معه بما فيه من فوضا وتعقيدات.
ويحاول، في هذا السياق، إيفان لابتيف، الأستاذ الزائر في قسم الرؤية الحاسوبية في جامعة محمد بن زايد للذكاء الاصطناعي، سد هذه الفجوة.
تحديات نظم الذكاء الاصطناعي المُتَجسِّد
شكلت مشاهدة فيلم “ماتريكس” تجربة فريدة بالنسبة لـ لابتيف من خلال مجموعة الأسئلة التي طرحها حول كيفية تصورنا وتفسيرنا للعالم من حولنا. يذكر أن لابتيف بدأ مسيرته في مجال علوم الحاسوب بتدريب الآلات على التعرف على الأشياء في الصور. وركز، في مرحلة لاحقة، على التعرف على التصرفات [الأفعال] باستخدام التعلم الموجَّه لتدريب البرامج على كيفية التعرف على التصرفات البشرية في الفيديوهات، وهو يعمل حالياً على نقل التطورات المحرزة في مجال الرؤية الحاسوبية إلى الروبوتات.
يطرح مجال اهتمام لابتيف الأخير تحدياً كبيراً، خصوصا فيما يتعلق بالبيانات. وحسب لابتيف فإن “مجال الروبوتات يعتمد على كم بيانات أقل مقارنة مع الرؤية الحاسوبية”، مضيفاً: “تمثل البيانات عنصرا أساسيا للعديد من التطورات الحديثة في مجال تدريب الآلات على تفسير الصور وتأويل المعاني اللغوية”. وتشمل هذه التطورات الشبكات العصبونية التي تدعم تطبيقات التعرف على الصور والنماذج اللغوية الكبيرة المدربة على مجموعات بيانات ضخمة.
سبب آخر لندرة البيانات الخاصة بالروبوتات يرتبط – يقول لابتيف – بعددها القليل جداً في العالم وعدم نشر مقاطع الفيديو والصور لها على الإنترنت. كما أشار إلى أن السبب في هذا، يعود جزئيا إلى أن معظم الروبوتات موجودة في مختبرات البحث والتطوير في بيئات غالباً ما تكون بسيطة، بل ومملة مقارنة بالعالم الحقيقي.
وهناك فرق آخر بين نظم الذكاء الاصطناعي المتجسد [الروبوتات] ونظم الرؤية الحاسوبية الحالية، آلا وهو أن الروبوتات تولد بيانات جديدة من خلال تفاعلها مع العالم من حولها وعملها على تغيير حالة محيطها، وهي تقوم بهذه العملية باستمرار.
ويوضح لابتيف أن “الروبوتات عندما تخطط للقيام بأمر ما، فإنه لا يمكن بأي حال من الأحوال وضع كل سلسلة من سلسلات الخطوات المحتمل القيام بها في الحسبان، ويرجع هذا – يقول – إلى طبيعة عالم الروبوتات المتسم بقلة البيانات وكثرة الاحتمالات”. ويفرض هذا الأمر علينا إيجاد حلول لهذا التحدي.
تحدٍ آخر تواجهه الروبوتات يتمثل في حاجتها إلى العمل في الوقت الفعلي، حيث يجب عليها – من ناحية – الاستجابة للتغيرات أثناء حدوثها في البيئة التي تتفاعل معها، ولذا يجب عليها معايرة حالتها وإدراكها للعالم من حولها باستمرار. كما يشكل، من ناحية أخرى، العمل في الوقت الفعلي تحدياً بالنسبة لتدريب هذه الروبوتات، وذلك لأن التدريب في العالم الحقيقي تمليه سرعة حدوث أحداث الواقع، وهذا يعني أن الأمر سيستغرق سنوات لجمع بيانات حقيقية كافية لتدريب أي روبوت.
ولتطوير مجال الروبوتات إلى المستوى الذي يُمَكِّن الناس من الاستفادة منها بشكل أكبر، سيحتاج العلماء إلى بناء أنظمة تحاكي الواقع بدقة حتى تتمكن الروبوتات من التعلم والتخطيط اعتمادا على نظم المحاكاة هذه قبل الانطلاق في العالم الحقيقي.
نظرة مستقبلية
أوضح لابتيف، في هذا السياق، أننا نتمتع بوصفنا بشراً بقدرة تمكننا من إجراء محاكاة ذهنية تنبئنا نوعاً ما بما سيحدث في الواقع إذا ما تصرفنا على نحو معين، وهذا ما لا تمتلكه الآلات في الوقت الحالي.
ويطلق لابتيف على هذه التكنولوجيا اسم “نموذج العالم” أو “محاكي العالم”، وهي أحد الأهداف المركزية لعمله الحالي. ويوضح أن “جهاز المحاكاة هذا سيوفر للروبوتات القدرة على تخطيط تصرفاتها من خلال مجموعة متنوعة من المقاييس الزمنية”، حيث يمكن لهذا الجهاز أن يساعد الروبوت على التسوق في السوبر ماركت. كما يمكن استخدامه للتخطيط لمهام مجردة وأكثر تعقيدا كالتفكير في عملية الانتقال إلى منزل في مدينة جديدة في قارة مختلفة بعد ستة أشهر من الآن.
لسنوات عدة، كانت هناك جهود لتطوير نظم لمحاكاة العالم الواقعي، والعديد من ألعاب الفيديو الحديثة تستخدم ما يُعرَف بنظم المحاكاة الفيزيائية، وهي نظم تعيد تجسيد حركة الأجسام وتفاعلاتها بشكل واقعي. كما يمكنها محاكاة ظواهر مثل الاحتكاك أو كيفية سقوط جسم من على طاولة نحو الأرض.
ورغم ما تم إحرازه من تقدم في تطوير هذه النظم، ما تزال تواجهها بعض التحديات. كما أن النماذج التي تُدرب بواسطتها لا تعكس العالم الحقيقي بصورة جيدة. ويرى لابتيف أن هذا القصور يشكل فرصة لتطوير نظم أكثر قوة اعتماداً على الكثير من المعلومات التي ستمكننا – يقول – من إجراء عمليات تحاكي بدقة أكثر الطرق التي تتصرف وتتفاعل بها الأشياء في العالم الحقيقي.
يعتقد لابتيف أن الابتكارات في مجال الرؤية الحاسوبية يمكن أن توفر الأساس لتطوير نظم المحاكاة هذه، وأمله الكبير هو أن يتم تدريبها اعتماداً على بيانات مثل مقاطع الفيديو على الإنترنت التي تُظهر – على سبيل المثال – الكثير من التفاعلات بين الناس والعالم، حيث – يقول – أنه من الممكن التقاط بيانات هذه التفاعل واختزالها في نموذج يمكنه التنبؤ بما سيحدث في حال تم القيام بتصرف ما في سياق سيناريو ما.
وتبقى هذه المقاربة القائمة على البيانات غير كافية في تقدير لابتيف، بالنظر – يقول – إلى قدرة البشر والحيوانات على التفاعل مع العالم المادي [الفيزيائي] في سنٍ مبكرة من خلال التجربة الحسية لأثر ما يترتب عن أفعالهما في هذا العالم؛ مضيفا أن هذا التعلم البيولوجي – الذي لا نعرف بعد كيف نفعل الشيء نفسه مع الذكاء الاصطناعي – يحدث اعتماداً على عينات تعلمية قليلة جداً.
ولرفع هذا التحدي يقول لابتيف أن النهج القائم على البيانات يمكن تعزيزه اعتماداً على فروع الفيزياء الكلاسيكية واستخدامها كدليل مرجعي لمساعدة نماذج الذكاء الاصطناعي المتجسد على التعلم بكفاءة أكبر من البيانات، غير أن كيفية الجمع بين الفيزياء الكلاسيكية وتعلم الآلة بالنسبة لـ لابتيف يبقى تحدياً مفتوحاً.
إنه سؤال بحثي يجب تناوله إذا كنا نسعى إلى أن تصبح الروبوتات قادرة على العمل في العالم الحقيقي وأكثر انتشاراً وفائدة للناس.
وحسب ما جاء على لسان مورفيوس، فإن جهاز محاكاة العالم الذي يتصوره لابتيف قد يمكن نماذج الذكاء الاصطناعي المتجسد من تجاوز عتبة القدرة على معرف الطريق إلى القدرة على المضي فيها.