يتطلّب تعليم الروبوت مهارة جديدة في العادة تجميع عدد من العروض التوضيحية للحركة المطلوبة، ثم إعادة تدريب الروبوت عليها، وهي عملية تستغرق وقتاً طويلاً لذا بدأ باحثو الروبوتات في استكشاف نهج أسرع وأكثر مرونة يُعرف باسم “التعلّم بالتقليد المعتمد على السياق”، وهو نهج يوفّر طريقاً مختصراً دون الحاجة إلى إعادة التدريب.
في هذا الأسلوب، يراقب الروبوت حركةً ما، ثم يُنشئ تمثيلاً لها عبر عملية تُعرف باسم تجزئة رموز الحركات «أي تقسيم الحركة المستمرة إلى وحدات صغيرة قابلة للتمثيل، على غرار تقسيم الجملة إلى كلمات».
تستلهم الفكرة الأساسية من مجال معالجة اللغة الطبيعية، حيث تستطيع النماذج اللغوية تعلّم مهام جديدة بمجرد تزويدها بأمثلة إلا أن هناك فروقاً جوهرية بين ترميز النصوص وترميز الحركات الفيزيائية؛ فتجزئة رموز الحركات يتطلب تعلّم البعدين الزمني والمكاني معاً، كما يوضح آن دينه فونغ، طالب الدكتوراه في الرؤية الحاسوبية بجامعة محمد بن زايد للذكاء الاصطناعي.
ولا تأخذ أساليب تجزئة الرموز التقليدية في الحسبان ما يُعرف بـ “السلاسة الزمنية” «الحركة متصلة ومتدرجة زمنياً دون قفزات أو توقفات مفاجئة»، وهي خاصية تتعلق باستمرارية حركة الروبوت عبر الزمن. فعندما يمدّ الإنسان يده لالتقاط فنجان قهوة على مكتب، تكون الحركة عادةً سلسة وتُنفّذ في دفعة واحدة. أما طرق تجزئة رموز الحركات القياسية، فقد تؤدي إلى حركات متقطعة وغير مستقرة. وتكمن أهمية هذه المسألة في أن الحركات الأكثر سلاسة غالباً ما تقود إلى نتائج أكثر نجاحاً.
يُعد فونغ وزملاؤه مؤلفي دراسة تقترح طريقة جديدة لتجزئة رموز الحركات أطلقوا عليها اسم المشفّر التلقائي التبايني مع ترميز متجهي مقيّد بليبتشيتز (LipVQ-VAE)، وتجمع هذه الطريقة بين VQ-VAE، وهو أداة تقليدية لتجزئية الرموز، ويطبق قيد ليبتشيتز «وهو قيد رياضي يحدّ من التغيّرات الحادة في المخرجات، بما يضمن أن تتغيّر الحركات بسلاسة عند تغيّر المدخلات» بهدف توليد حركات روبوتية أكثر سلاسة. وعند استخدامها مع التعلّم بالتقليد المعتمد على السياق، أدّت طريقة LipVQ-VAE إلى تحسين أداء كلٍّ من روبوتات المُحاكاة والروبوتات الحقيقية.
وقد عُرضت نتائج الدراسة في المؤتمر الدولي للروبوتات والأنظمة الذكية لعام 2025، الذي ينظمه معهد مهندسي الكهرباء والإلكترونيات بالتعاون مع جمعية الروبوتات والأنظمة الذكية (IROS 2025) الذي عُقد في مدينة هانغتشو بالصين، وهي أول دراسة تستكشف دور تجزئة رموز الحركات في التعلّم بالتقليد المعتمد على السياق.
شارك في إعداد الدراسة كل من: مينه نهات فو، دونغ آن، وإيان ريد.
يسعى فونغ من خلال هذا العمل إلى معالجة بعض التحديات الأساسية في مجال الروبوتات، عبر إيجاد طرق لنقل «ذكاء» أنظمة الرؤية الحاسوبية إلى أفعال روبوتية عملية قادرة على مساعدة البشر.
يعتمد LipVQ-VAE على تقنية تُعرف باسم التكميم المتجهي، وهي أسلوب غير خاضع للإشراف لتعلّم التمثيلات، يعمل على ضغط المعلومات في وحدات منفصلة أو “عناصر لغوية ” (Tokens) يمكن للنماذج تفسيرها.
ولبناء LipVQ-VAE، اعتمد الباحثون إطاراً يُعرف باسم محوّل سياقي للتحكم الروبوتي، والذي يتعامل مع التحكم الروبوتي بوصفه مسألة تنبؤ بالعنصر اللغوي (الرمز) التالي، على غرار الطريقة التي تتنبأ بها النماذج اللغوية بالكلمة التالية في الجملة. ويستفيد هذا الإطار من الأمثلة السابقة لتحديد الفعل الذي يجب تنفيذه لاحقاً.
تُشفَّر العروض التوضيحية في فضاء مشترك للرموز الكامنة، وتؤدي دوراً مشابهاً لدور «الطلب» في النماذج اللغوية.
تمرّ كل من بيانات الاستشعار والأفعال عبر طبقة معالجة داخل النموذج تتألف من مكونين: المكوّن الأساسي لاستخلاص الملاحظات وأداة تجزئة الأفعال. يثبت الباحثون في دراستهم أن اختيار أداة تجزئة الحركات المناسبة يُعد عاملاً حاسماً في تحديد أداء الروبوتات.
يُشفّر LipVQ-VAE الحركات في فضاء كامن باستخدام التكميم المتجهي، ما يساعد على مواءمة تمثيلات الحركة مع توقيتها الزمني. ثم يُطبَّق قيد ليبتشيتز على المُرمِّز. ويقول فونغ:
“نضيف قيد ليبتشيتز إضافياً يسمح بانتقال التأثير من المجال الزمني إلى الفعل الزمني نفسه”.
بعد ذلك، تُسقَط الملاحظات والحركات المُرمَّزة في فضاء كامن مشترك.
اختبر الباحثون طريقة LipVQ-VAE في بيئات محاكاة، وكذلك على روبوت حقيقي، ووجدوا أنها تتفوق بشكل ملحوظ على الأساليب الأخرى. فقد تجاوزت أداء مُرمِّز يعتمد على الشبكات العصبية متعددة الطبقات بنسبة 2.3%، وتفوقّت على طريقة VQ-VAE التقليدية بنسبة 5.5%.
كما أسفر النهج الجديد عن حركات أكثر سلاسة، ونسبة نجاح أعلى عند التطبيق على المكونات المادية الحقيقية، إذ بلغت نسبة النجاح 12%، مقارنةً بنحو 2% فقط في الأساليب المرجعية.

خلُصَ الباحثون إلى أن اختيار أداة تجزئة رموز الحركات المناسبة يُعد عاملاً أساسياً في التعلّم بالتقليد المعتمد على السياق، حيث ترتبط التمثيلات الأكثر سلاسة للأفعال بارتفاع معدلات النجاح في المعالجة الروبوتية.
ويشير فونغ إلى أن الطريقة الحالية تمثّل الحركات في فضاء كامن، إلا أن الأعمال المستقبلية قد تستكشف استخدام تمثيلات صريحة بدلاً من ذلك. ويقول: “يمكن دمج الملاحظة مع الفعل بصورة أوضح، عبر ربط المدخلات البصرية أو المكانية مباشرة بالحركات، بدلاً من الاعتماد على تمثيلات مجرّدة”.
بصورة عامة، يحمل LipVQ-VAE إمكانات كبيرة لتحسين التعلّم بالتقليد المعتمد على السياق للروبوتات، ويفتح مساراً عملياً نحو نشر الروبوتات في العالم الحقيقي. ومع بدء الروبوتات بمشاركة البشر في المساحات الفيزيائية، لن تكون الحركات الروبوتية السلسة والدقيقة مسألة جمالية فحسب، بل ستصبح عنصراً أساسياً لضمان سلامة الأنظمة الروبوتية وموثوقيتها.
الأستاذ في علم الروبوتات عبدالله سويكر يكشف عن أسلوب مبتكر في التعلم بنطاق حركة المفصل خلال مؤتمر.....
اجتمع باحثون وأطباء سريريون في أبوظبي لتسليط الضوء على ابتكارات الذكاء الاصطناعي المصممة لمواجهة تحديات صحية عاجلة،.....
نُشرت مقالة شارك في تأليفها نائب رئيس البحوث وأستاذ علم الروبوتات في جامعة محمد بن زايد للذكاء.....
اقرأ المزيد