خبراء الذكاء الاصطناعي في أبوظبي يبتكرون منصة مؤتمتة لدبلجة ومزامنة محتوى الفيديو

Friday, December 31, 2021

نشر المقال الأصلي في مجلة “وايرد الشرق الأوسط” بتاريخ 11 نوفمبر 2021

 فريق من طلاب الدراسات العليا في جامعة محمد بن زايد للذكاء الاصطناعي يسعى للتغلب على القيود التي تعانيها تقنيات الدبلجة السمعية والبصرية.

لعّل جميع الذين شاهدوا فيلماً مدبلجاً لاحظوا التباين الواضح بين الكلمات التي نسمعها وحركة شفاه المتحدث الذي يفترض أنه ينطقها. ولهذا، يعمل ثلاثة من طلاب الدراسات العليا الشباب في جامعة محمد بن زايد للذكاء الاصطناعي على توظيف قدرات الذكاء الاصطناعي، وتحديداً تقنيات التعلم العميق ومعالجة اللغة الطبيعية والرؤية الحاسوبية، لابتكار حل شامل وكامل لهذه المشكلة.

ويطلق الطلاب اسم “منصة الدبلجة التلقائية” (Auto-DUB) على منتجهم الرائد الذي يعتمد على تقنيات الدبلجة التلقائية التي عادة ما تتلاعب بأنماط تحويل الكلام لتوليد دبلجة أكثر واقعية في الصور المتحركة. ويبتعد الفريق عن النهج التقليدي من حيث العملية التي ابتكرها والمستخدم النهائي الذي يرغب باستهدافه، محولاً بذلك مجال التركيز من القطاع الترفيهي إلى التعليمي.

وفي هذا الصدد، قالت أكبوبك أبيلكيركيزي، عضو الفريق والمتخصصة في مجال تعلّم الآلة وخريجة جامعة ألماتي لهندسة الطاقة والاتصالات في كازاخستان: “شهدت  أنشطة التعليم الإلكتروني عبر الإنترنت نمواً  ملحوظاً خلال العقود القليلة الماضية، فأتاحت الوصول إلى آلاف الدورات التعليمية والتدريبية التي تقدمها أفضل جامعات العالم. وفي أعقاب جائحة كوفيد-19، بات التعلم الإلكتروني يجسّد جانباً أكثر أهمية بالنسبة لحياة الناس. ويتعين علينا ضمان أن يحظى الجميع بإمكانية الوصول إلى هذه الموارد”.

ولتحقيق هذه الغاية، ابتكر الطلاب عملية من ثلاث خطوات لنقل المحتوى السمعي البصري من لغة إلى أخرى بسلاسة نسبية، وأولى هذه الخطوات هي إنشاء الترجمات المكتوبة بلغة يختارها المستخدم، ثم إنشاء تمثيل صوتي لهذه الترجمات، وأخيراً مزامنة الصوت مع حركة شفاه المتحدث على الشاشة. والفكرة هنا أن تعلم موضوع أو مجال جديد ينطوي بحد ذاته على قدر كبير من الصعوبة، ناهيك عن تشتت الانتباه الناجم عن الترجمة المكتوبة أو الدبلجة السيئة للصوت أو الترجمات الخاطئة التي تمثل الجانب الأسوأ على الإطلاق.

من جانبه، قال جوكول كارثيك عضو الفريق المتخصص في الرؤية الحاسوبية والباحث في جامعة محمد بن زايد للذكاء الاصطناعي وخريج كلية ثياجارجار للهندسة: “يجري استخدام اللغة الإنجليزية على نطاق واسع في معظم مقاطع الفيديو التعليمية، ويشكل هذا عائقاً للعديد من الذين يتحدثونها كلغة ثانية. ويهدف منتجنا إلى ردم الفجوة اللغوية باستخدام أحدث تقنيات نعلم الآلة وأكثرها تقدماً لإنشاء ترجمات دقيقة ومزامنة الصوت المدبلج مع الحفاظ على الأسلوب المستخدم من قبل المتحدث الأصلي”.

نعتقد أن تكنولوجيا الذكاء الاصطناعي ستحقق نمواً لافتاً ضمن المجتمعات لدفع عجلة الازدهار وتعزيز التعاون.

أكبوبك أبيلكيركيزي
طالبة ماجستير بجامعة محمد بن زايد للذكاء الاصطناعي
ويعتقد أحمد المحروقي، الطالب العماني المتخصص في مجال تعلّم الآلة وخريج جامعة نورث كارولينا، أن النظام الذي ابتكره فريق جامعة محمد بن زايد للذكاء الاصطناعي سيساعد على تجاوز المشكلات العملية التي تواجه مزودي المحتوى في الوقت الراهن. وقال المحروقي: “توفر المنصات التعليمية في العادة ترجمات مكتوبة للمحتوى الذي تقدمه، لكن هذه الترجمة غالباً ما تتسبب بانخفاض جودة تجربة المستخدم. وفي الوقت نفسه، تحتاج الدبلجة اليدوية لمقاطع الفيديو إلى الخبرات البشرية والكثير من الوقت والمال. وباستخدام نماذج الذكاء الاصطناعي ومعالجة اللغة الطبيعية والرؤية الحاسوبية، يمكننا دبلجة مقاطع الفيديو بصورة فورية وتكلفة منخفضة مع الحفاظ على نبرة المتحدث وأسلوبه”.

وعندما وجهت الدعوة إلى فريق جامعة محمد بن زايد للذكاء الاصطناعي لاستعراض مشروعهم الرائد أمام الجمهور في معرض “جيتكس” الذي استضافته دبي خلال شهر أكتوبر، تصدى كارثيك لمهمة توضيح الجوانب التقنية المعقدة التي تستند إليها أفكارهم عبر عرض تقديمي سلط الضوء على العديد من واجهات برمجة التطبيقات وآليات التعرف على الكلام والشبكات العصبية العميقة وأنظمة نمذجة التسلسل. وأشار كارثيك إلى أن الفريق يستخدم حالياً محركات ترجمة قائمة ومتوفرة في متناول الجميع ضمن النموذج الأولي، لكنه بيّن أن الفريق يخطط لتصميم وتطوير كافة عناصر المشروع بصورة متكاملة في النسخة النهائية.

وتنطوي تجربة المشاركة في المعرض على تأثير بالغ الأهمية بالنسبة لفريق من طلاب الدراسات العليا، لكن المحروقي يشير إلى أن الفريق لا يعمل بشكل منفصل عن منظومة الجامعة، حيث قال: “توفر الجامعة بيئة تعاونية فريدة تجمع بين موهوبين يمتلكون رؤية مشتركة من أكثر من 40 دولة. وبالإضافة إلى ذلك، لم يتوانى أساتذة الجامعة عن تقديم الإرشادات والتوجيهات والمشورة التخصصية حول كيفية ضبط المنتج وتحسينه”.

ويصف المحروقي مشاركة الفريق في معرض “جيتكس” بيوم “رائع” بالنسبة لهم جميعاً، حيث قال: “شاركنا في مسابقة تضمنت إيجاد حلول للمشكلات المجتمعية باستخدام الذكاء الاصطناعي. وتمكنا من عرض منتجنا الجديد خلال الجولة النهائية، كما اجتمعنا بمجموعة من أبرز المتخصصين في القطاع الذين شجعونا على المضي قدماً بتطوير هذه الفكرة”.

وبالنسبة للمسار المستقبلي لهذه الفكرة، أكد المرزوقي أن الفريق أجرى دراسة متعمقة شملت جميع المسارات والفرص المستقبلية المحتملة. وقال المرزوقي: “نحتاج إلى منصات دبلجة توفر للمستهلكين إمكانية الاختيار بين العاملين المتخصصين الذين يمكنهم تقديم خيارات أكثر إبداعية، أو روبوتات الذكاء الاصطناعي التي تقدم حلولاً أسرع وأقل تكلفة. ويسهم هذا في إرساء الأسس لمنظومة مستدامة تعود بالمنفعة على المطورين والفنانين على حد سواء”.

وعلاوة على ذلك، يشير المحروقي إلى وجود العديد من الفرص الاقتصادية المرتبطة بعمل كهذا، فقد تجاوزت قيمة سوق التعلم الإلكتروني حدود 250 مليار دولار في عام 2020، كما يمكن لنجاح هذا المشروع في قطاع الترفيه أن يحقق مكاسب ضخمة – لكن طموحات فريق جامعة محمد بن زايد للذكاء الاصطناعي تتخطى حدود المكاسب المالية.

وقالت أبيلكيركيز: “نعتقد أن تكنولوجيا الذكاء الاصطناعي ستحقق نمواً لافتاً ضمن المجتمعات لدفع عجلة الازدهار وتعزيز التعاون. وتهدف الجامعة إلى بناء جسر يربط بين العمل البحثي ومختلف القطاعات بالإضافة إلى تطبيق تقنيات الذكاء الاصطناعي في الحلول اليومية. كما أننا نؤمن بالإمكانات الهائلة التي تنطوي عليها نماذج التعليم مفتوحة المصدر على صعيد تحسين حياة الناس حول العالم، لكن هذا الهدف سيبقى بعيد المنال إن بقيت حواجز اللغة ماثلة أمامنا”.

أخبار ذات صلة

thumbnail
Tuesday, November 26, 2024

النماذج اللغوية الكبيرة وفهم انفعالات الإنسان وعواطفه

فريق بحثي من جامعة محمد بن زايد للذكاء الاصطناعي وجامعة موناش يبحث في مدى قدرة النماذج اللغوية.....

  1. البحوث ,
  2. النماذج اللغوية الكبيرة ,
  3. EMNLP ,
  4. معالجة اللغة الطبيعية ,
  5. انفعالات الإنسان ,
  6. التعاطف ,
اقرأ المزيد