نحو “أفتارات” أكثر واقعية للعالم الافتراضي

Monday, June 24, 2024

أحد أهداف مركز الميتافيرس في جامعة محمد بن زايد للذكاء الاصطناعي حسب هاو لي، مدير المركز وأستاذ مشارك في قسم الرؤية الحاسوبية بالجامعة نفسها، هو تمكين الأفراد من “قدرات خارقة” من خلال عيش تجربة العالم الافتراضي والقيام بما لا يمكنهم القيام به في الواقع.

لكن التحدي الرئيس في جعل العوالم الافتراضية أكثر جذباً للمستخدمين يكمن في تطوير التقنيات التي تسمح لهم بإنشاء “أفتارات” (Avatars) واقعية. وهناك اليوم عوالم افتراضية تمكن المستخدمين من إنشاء شخصيات رسومية لأغراض محدودة في هذه العوالم التي لا ينبغي الخلط بينها وبين الواقع.

مؤخراً طور لي وزملاؤه تكنولوجيا جديدة لإنشاء “أفتارات” ثلاثية الأبعاد واقعية للاستخدام في البيئات الافتراضية، مثل المؤتمرات بالفيديو ثلاثية الأبعاد، والواقع المعزز أو الافتراضي. يشار إلى أن نتائج هذا العمل تم تقديمها في سياتل هذا الشهر خلال فعاليات “مؤتمر الرؤية الحاسوبية والتعرف على الأنماط 2024” الذي يعد واحداً من أكبر المؤتمرات في مجال الرؤية الحاسوبية.

يذكر أن المشروع هو مجهود مشترك بين كل من جامعة إيث زيورخ، ومعهد فين آي للبحوث، وشركة بين سكرين وجامعة محمد بن زايد للذكاء الاصطناعي.

بُعدٌ آخر

تعتبر مهمة إنشاء “أفتارات” واقعية بسرعة وكفاءة مهمة صعبة، بل وتشكل واحدة من المهام التي تطرح تحديا حاول مجتمع العلماء رفعه منذ سنوات، ويؤكد لي هذا قائلا: “من الصعوبة بمكان إنشاء ’أفتارات‘ تبدو كالبشر”. وترتبط هذه الصعوبة أساساً بكيفية تحويل صورة ثنائية الأبعاد مما يُعرف “بالمصدر” الأولي “للأفتار”، وهي صورة الشخصية التي يرغب المستخدم في تجسيدها، وتحويلها إلى محاكاة ثلاثية الأبعاد داخل العالم الافتراضي.

وبالنظر إلى اعتبار أن البيئات الافتراضية هي غالباً ثلاثية الأبعاد، فإنها تطرح صعوبة أخرى تفرض معها أن يبدو “الأفتار”  (Avatar)بشكل جيد من أي زاوية يتم منها النظر إليه؛ فعلى عكس الفيديو – يوضح لي – يجب أن يكون الأفتار ثلاثي الأبعاد، وهذا يضيف تعقيدات أخرى خاصة بأوضاعه وتعابيره وزوايا النظر إليه.

يمكن توضيح ما تقدم بمثال أفضل نفترض فيه أن رغم قضائك لمعظم ساعات يومك جالساً على مكتب تكتب على حاسوبك، غير أنك وبمجرد أن تتاح لك فرصة عيش تجربة العالم الافتراضي، تكون لديك رغبة – على سبيل المثال – في تقليد شخصية فيلسوف الطعام والثقافات الرحالة العالمي – أنتوني بوردين – فعندئذ كيف يمكننا دمج وجه بوردين مع حركاتك في بيئة أخرى؟

“عادةً ما حاول الناس – يقول لي – حل هذه المشكلة عن طريق تطوير نماذج معقدة لتعابير وجوه البشر وكيفية تعبير الناس عنما يخالجهم من أحاسيس، غير أن هذه النماذج تتطلب الكثير من العمل الهندسي، وغالباً ما تكون مخرجاتها غريبة نوعا ما”.

ولتوضيح ما سبق نورد هنا ما قام به باحثو شركة ميتا الذين طوروا طريقة اعتمدوا فيها استخدام أكثر من 150 كاميرا لالتقاط حركات الوجه بهدف بناء شخصية “أفتار”، والتي يرى لي أنها طريقة تعمل بشكل جيد إلى حد ما، غير أنها ليست عملية وتتطلب قدراً كبيراً من الجهد والموارد الحوسبية.

 وفي مقابل هذه الطريقة الصعبة والمضنية، نجد مقاربة لي وزملائه التي يحتاج فقط إلى صورة واحدة للمصدر لإنشاء محاكاة ثلاثية الأبعاد واقعية، وتكون منسجمة مع حركات الشخص الذي يقلد الشخصية الافتراضية.

وذكر لي شارحاً هذه المقاربة قائلا أن: “الذكاء الاصطناعي يشكل جزءاً من مجموعة البرمجيات المستخدمة لرقمنة وإنتاج ’الأفتار‘ في الوقت الفعلي”، مضيفا أن “الشبكة العصبونية العميقة ضمن البرنامج تعتبر مثل مرشح معقد جداً، يقوم بتحويل المعلومات ثنائية الأبعاد، كصورة فوتوغرافية، إلى معلومات ثلاثية الأبعاد”. ثم تابع قائلا: “يعرف هذا النوع من النماذج بالنماذج التوليدية التي نسمح لها بإنشاء ’أفتار‘ اعتماداً على صورة واحدة فقط، واستخدام ’خيالها‘ لتوليد تفاصيل إضافية”.

أطلق لي وزملاؤه في فريق العمل على هذه المقاربة اسم “VOODOO 3D: Volumetric Portrait Disentanglement for One-Shot Head Reenactment“.

وشرح لي أن النظام المستخدم في هذه التكنولوجيا يقوم بعدد من المهام، حيث يحول الصورة المصدر ثنائية الأبعاد إلى تمثيل ثلاثي الأبعاد، ثم يستخرج ما يُعرف بهوية الصورة المصدر – أي الخصائص التي تجعل الوجه فريداً وقابلاً للتعرف عليه في سياقات متنوعة. كما يقوم باستخلاص التعابير الخاصة بمستخدم “الأفتار” (وضعيات الوجه والحركات التي يقوم بها الشخص) وتعرف هذه العملية باسم “فك العناصر المتداخلة”.

وأوضح لي أنه من خلال هذه العملية، يتم وضع كل من “الصورة المصدر” و”صورة الشخص” في وضعية موحدة تعرف بالوضعية القياسية، حيث إن جميع “الأفتارات” ثلاثية الأبعاد – يقول لي – تنظر في اتجاه معين، مما يجعل تعلم التعابير أسهل بكثير بالنسبة للنموذج لأنه يقلل من عدد الأبعاد.

ويفسر لي أن هذه التقنية “تتعامل مع مكونات هوية الصورة وتعابير وجه الشخص كل على حدة وبشكل مستقل عن الوضع الذي يتخذه الرأس”. ويضيف: “نريد تقليل عدد الأبعاد بحيث يمكن للنموذج أن يتعلم استخراج السمات وتوليد المحتوى من جديد بفعالية”.

النتيجة هي أن المصدر ينشئ أو يحدد طريقة ظهور “الأفتار”، بينما يُوَلِّد الشخص الفعلي وضعياته وحركاته وتعابيره، وللاطلاع على أمثلة أكثر يمكنك زيارة موقع هذا المشروع البحثي هنا.

كيف ولماذا؟

استخدم الفريق هيكلية تعرف باسم “محولات الرؤية” لمعالجة معلومات المصدر والشخص صاحب “الأفتار”؛ ورغم ما أظهرت المحولات في السنوات القليلة الماضية بوصفها هيكلية فعالة وقوية بالنسبة لمهام الرؤية الحاسوبية ومعالجة اللغة الطبيعية، إلا أن هاو لي يعتقد أن جودة البيانات المستخدمة لتدريب أي نظام معين ربما تكون أكثر أهمية من الهيكلية ذاتها.

وتعقيباً على هذا الجانب قال هاو لي: “هناك العديد من الدراسات التي تحاول إثبات أن هيكلية ما هي أفضل من أخرى، غير أنني أعتقد أن ذلك ليس بالضرورة صحيحاً، حيث إن كيفية تدريب شبكة عصبونية ما غالباً ما يُغفل، لكنه يحدث فارقاً كبيراً”.

هاو لي وفريقه يعملون في الوقت الحالي على تطوير النسخة التالية من برنامج “Voodoo” التي يمكن أن تولد ليس فقط وجهاً “الأفتار”، بل جسداً كاملا أيضاً.

وكما هو الحال مع العديد من تطبيقات الذكاء الاصطناعي القوية، هناك أخطار، غير أن هاو لي إن يرى أن جعل البيانات مفتوحة المصدر يمكن أن يساعد في الكشف على سوء الاستخدام لهذا النوع من البرمجيات، ومن بين ما يشكل مصدر قلق كبير لـ هاو لي هو التأثير الذي قد يكون للاستخدام الواسع “للأفتار” على نفسية الفرد والمجتمع بشكل عام – ويقول:

“يوماً ما سيستخدم الناس هذه التقنيات. وفي عالم يمكن فيه للناس أن يكونوا أي شخص يرغبون فيه، من المهم التفكير في الكيفية التي سيتم بها إتاحة هذه المنتجات وتوفيرها. كما ينبغي التفكير في بعض الإجراءات الوقائية التي يجب أن تكون موجودة ومفعلة”.

أخبار ذات صلة

thumbnail
Tuesday, November 26, 2024

النماذج اللغوية الكبيرة وفهم انفعالات الإنسان وعواطفه

فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي وجامعة موناش يبحث في مدى قدرة النماذج اللغوية.....

  1. التعاطف ,
  2. انفعالات الإنسان ,
  3. معالجة اللغة الطبيعية ,
  4. EMNLP ,
  5. النماذج اللغوية الكبيرة ,
  6. البحوث ,
اقرأ المزيد