يمثل الصوت وسيلة التواصل الطبيعية بين البشر والمؤسسات وأنجع طريقة للتعبير عن المشاعر ونقل المعرفة عبر اللغات والثقافات. وهو اليوم يتحول سريعاً إلى عنصر أساسي في التجارب الرقمية في الشرق الأوسط مع انتشار الاستخدام العملي لأدوات الذكاء الاصطناعي الصوتي في قطاعات الاتصالات والبنوك وتجارة التجزئة والتعليم والإعلام.
وفي هذا السياق، استضاف مركز حضانة وريادة الأعمال بجامعة محمد بن زايد للذكاء الاصطناعي شركة “إلفن لابس” (ElevenLabs) في جلسة حوارية ضمن سلسلة “Palmside AI Chat”، حيث أتيحت للطلبة فرصة التعرف على الدور الذي يسهم من خلاله الذكاء الاصطناعي في الارتقاء بتجربة التواصل الصوتي وتمكين المؤسسات من الانتقال من المشاريع التجريبية إلى حلول مُنتجة وقابلة للتطبيق. وشارك في الجلسة كل من حسين مكي، المدير العام لمنطقة الشرق الأوسط في الشركة، ومكسيم خاتون، مدير استراتيجية التسويق فيها.
لعبت شركة “إلفن لابس” من خلال أبحاثها ومنتجاتها في مجال الذكاء الاصطناعي الصوتي دوراً مهماً في انتشار أنظمة الذكاء الاصطناعي المساعدة. وهي تُعد اليوم من أبرز الشركات العالمية المختصة في نماذج تحويل النص إلى كلام، بدءاً من الدبلجة بالذكاء الاصطناعي التي تسمح بإتاحة المحتوى بلغات متعددة، وصولاً إلى تحويل الكلام إلى نص، وأنظمة الذكاء الاصطناعي الصوتي المساعدة التي يمكن إعدادها خلال دقائق بمستوى عالٍ من الواقعية وزمن استجابة منخفض.
بدأ حسين مكي حديثه بالتأكيد على أن الشركات تشعر اليوم بضغط متزايد لإعادة تصميم خدماتها ومبيعاتها في ظل اقتصاد يقوم على الحلول الفورية. فالتواصل البشري بدأ بالصوت، وتطور إلى القصص، ووصل اليوم إلى ما يُقدَّر بـ “128 تريليون كلمة يومياً”. ورغم هذا التطور، ما زلنا نرى أشياء مثل موسيقى الانتظار في الاتصالات الهاتفية، وقوائم الرد الصوتي التفاعلي الجامدة. وأكد أن العملاء يتوقعون اليوم دعماً فورياً وشخصياً عبر قنوات متعددة، وليس فترات انتظار طويلة أو أنظمة هاتفية جامدة.
وأشار مكي إلى أن التواصل الصوتي سيكون وسيلة التفاعل الأساسية مع الأدوات التكنولوجية في المستقبل. فهو طبيعي ويعبّر عن المشاعر ومتاح في كل مكان وفي جميع اللغات، مضيفاً أن كبرى شركات التكنولوجيا تتجه نحو اعتبار الصوت لوحة المفاتيح الجديدة. ومع التقدم المستمر في وسائل الحماية والضوابط الأخلاقية، يمكن للتكنولوجيا الصوتية ذات القدرات العالية والمصممة بمسؤولية أن تُحدث تحولاً في أداء المؤسسات وفي قطاعات كاملة.
عانت تكنولوجيا الصوت في بداياتها من صعوبة في التقاط عناصر التعبير في الصوت البشري بدقة، مثل النبرة واللهجة والتوقفات والتنغيم، وحتى الضحك والتردد، حيث كان الوصول إلى هذا المستوى من الدقة يتطلب تقدماً كبيراً في نماذج متعددة وتنسيقاً أفضل بينها. ولهذا ركزت شركة “إلفن لابس” جهودها على هذه النواحي، حيث يقول مكي: “تُعدّ “إلفن لابس” في جوهرها شركة بحثية وشركة مختصة بتقديم المنتجات. نحن نركز على شيء واحد ونجيده بشكل ممتاز، وهو الذكاء الاصطناعي الصوتي. فنماذجنا تراعي السياق، وتعمل بلغات متعددة، وقابلة للتوسع بلا حدود”.
ويتابع كلامه قائلاً: “رسالتنا بسيطة، وهي جعل المحتوى الصوتي جذاباً ومتاحاً بجميع اللغات. وخلال ثلاث سنوات فقط من انطلاقتنا، أصبحنا منصة ذكاء اصطناعي موثوقة عالمياً. لدينا ملايين المستخدمين، ونقدم خدماتنا لكبرى المؤسسات والشركات ضمن قائمة فورتشن 500”.
استعرض مكي أمام الطلاب نموذجاً حديثاً من نماذج تحويل النص إلى كلام، مؤكداً أن خيارات التخصيص تشكل أساس هذا النمو، حيث قال: “لدينا آلاف الأصوات. أعتقد أن لدينا اليوم أكثر من عشرة آلاف صوت يمكنكم الاختيار منها. بل يمكنكم حتى إنشاء صوت جديد أو استنساخ صوتكم الشخصي”. وإلى جانب تحويل النص إلى كلام، تشمل مجموعة أدوات الذكاء الاصطناعي لدى الشركة التفريغ الصوتي (تحويل الكلام إلى نص) والدبلجة (تحويل الكلام إلى كلام).
وعرض مكسيم خاتون نظاماً صوتياً مساعداً مدمجاً في موقع إلكتروني، وهو منتج متكامل موجه لمتاجر التجزئة عبر الإنترنت. يقوم هذا النظام على قدرات مستمدة من نماذج تحويل النص إلى كلام، وتحويل الكلام إلى نص، واستنساخ الصوت، يتم التنسيق بينها جميعاً باستخدام قدرات الاستدلال لتقديم تجربة حوارية سلسة.
وأوضح خاتون أن النظام نفسه ينسق بين كل هذه العناصر ليقدم تجربة أشبه بالتفاعل البشري، مؤكداً أنه “سهل الاستخدام للغاية”. وقد بدا النظام قادراً على تبديل اللغات فوراً، والتعامل مع المقاطعة أثناء الحديث، والتنقل داخل المتجر، واقتراح بدائل تناسب الطقس الحار، وإتمام عملية الشراء دون الحاجة إلى استخدام لوحة المفاتيح مطلقاً.
من الناحية التقنية، يقوم هذا النظام على تصميم موجه للمطورين وليس فقط لخبراء تعلم الآلة. ويمكن بسهولة تحديد شخصية النظام المساعد وقواعد عمله (مثل الحديث دائماً بلغة المستخدم)، واختيار صوت من مكتبة تضم آلاف الأصوات، وإضافة قاعدة معرفية عبر الروابط والمستندات بصيغة “PDF”، وربط واجهات برمجة التطبيقات لتنفيذ مهام مثل تحديث السلة أو إنشاء طلبات الدعم الفني. كما توجد له أدلة واضحة متاحة على الإنترنت تساعد الفرق على العمل بسرعة، حيث أكد خاتون أن بعض المستخدمين تمكنوا من إعداد النظام المساعد وبدء استخدامه بالاعتماد فقط على الأدلة المنشورة ودون التواصل مع الشركة.
ويبقى زمن الاستجابة عاملاً أساسياً، حيث يستمر السباق نحو تقليصه بأجزاء من الثانية ليبدو الحوار فورياً. وفي هذا الصدد أشار مكي إلى أن شركته أضافت عدة نماذج لغوية كبيرة لتقليل هذا الزمن. وهذا يعزز أيضاً دعم اللغات، ولا سيما اللهجات العربية، حيث يشكل العمق اللغوي المحلي عنصراً جوهرياً لنجاح استخدام هذه الأنظمة في الشرق الأوسط. كما أكد خاتون أن اللهجات تختلف كثيراً في العالم العربي، والنماذج اللغوية العربية تشهد طفرة في المنطقة.
وقد حضرت الجلسة الدكتورة حنان الدرمكي، الأستاذة المساعدة في قسم معالجة اللغات الطبيعية بجامعة محمد بن زايد للذكاء الاصطناعي والمتخصصة في حفظ اللهجات العربية. وتعمل الجامعة، من خلال معهد النماذج التأسيسية، على تطوير نماذج لغوية كبيرة مفتوحة المصدر للغات ذات الموارد المحدودة، ومن بينها النموذج اللغوي العربي “جيس”، الذي يهدف إلى إتاحة قدرات الذكاء الاصطناعي باللغة العربية وتحسين أدائها.
أصبح الذكاء الاصطناعي الصوتي جزءاً من العمليات اليومية في العديد من القطاعات في مختلف أنحاء الشرق الأوسط، بما في ذلك ما يلي:
وتشمل نتائج ذلك بالنسبة للأعمال تسريع حل المشكلات، ورفع مستوى رضا العملاء، وتوفير الخدمات على مدار الساعة، إلى جانب خفض التكاليف مع زيادة حجم العمليات. وهناك فرص كثيرة لرواد الأعمال من الطلبة الذين لديهم مهارات في الذكاء الاصطناعي الصوتي.
وقد بدأ بالفعل طالبان من قسم تعلم الآلة بجامعة محمد بن زايد للذكاء الاصطناعي في استغلال هذه الفرص من خلال إطلاق شركتهما الناشئة “Audiomatic” في عام 2024، حيث توفر هذه المنصة المتقدمة للإنتاج الصوتي بالاعتماد على الذكاء الاصطناعي تسجيلات صوتية مخصصة وعالية الجودة لمقاطع الفيديو، ويستخدمها حالياً أكثر من 2,000 مستخدم نشط شهرياً.
وقدّم مكي نصائح عملية للراغبين في دخول عالم ريادة الأعمال، من أهمها الحفاظ على تركيز شديد، واتخاذ قرارات صعبة عند الحاجة، وعدم التردد في التكرار والتحسين، وتقبّل أن الفشل أمر وارد ولا يعني نهاية العالم.
كما أشار المتحدثان إلى عدد من المجالات الواعدة التي يمكن التركيز عليها لأنها تجمع بين الطلب الكبير والعائد المرتفع على الاستثمار، مثل إعادة تعيين كلمات المرور، وطلبات الدعم الفني البسيطة في تكنولوجيا المعلومات، والتحقق من حالة الحسابات، وتتبع الطلبات، ومسارات البيع الأساسية، وتعريب المحتوى التعليمي. وأوضحا أن هذه المهام متكررة ومستعجلة وتتم بلغات متعددة، ما يجعلها مناسبة تماماً لتنفيذها عبر الأنظمة الصوتية المساعدة التي تقلل العبء عن الفرق البشرية وتزيد مستوى الرضا لدى المستخدمين.
عبّر مكي عن توقعاته بأن يستمر التحسن في مستوى الجودة وسرعة الاستجابة مع تطور النماذج وزيادة التنسيق فيما بينها، مشيراً إلى أن هناك سباقاً لخفض زمن الاستجابة وسد الفجوة المتبقية للوصول إلى محادثات طبيعية لا يمكن تمييزها عن الحوار البشري.
كما شدد على أن وتيرة التبني تتسارع في مختلف القطاعات. فالمصارف تعيد تصميم تجربة خدمة العملاء، وشركات الاتصالات تعيد هيكلة مراكز الاتصال، ومتاجر التجزئة تتوسع في استخدام الأنظمة الصوتية لمساعدة العملاء في التسوق، ومنصات التعلم الإلكتروني تتجه لتوفير المحتوى التعليمي بلغات متعددة، وشركات الإعلام تعيد صياغة محتواها للجمهور العالمي.
وهكذا فإن الخلاصة الأساسية لهذه الجلسة هي أن عصر القوائم الجامدة وموسيقى الانتظار على الخط يوشك على الانتهاء، وتحل مكانها تدريجياً أنظمة ذكاء اصطناعي ترد سريعاً وتتحدث بصوت بشري طبيعي وبلغات متعددة، ويمكن إعدادها خلال ساعات وتوسيع نطاقها لإجراء ملايين المحادثات بمختلف اللغات واللهجات المستخدمة في العالم العربي.
استضافت جامعة محمد بن زايد للذكاء الاصطناعي، بالتعاون مع مؤسسة أبوظبي للموسيقى والفنون، النسخة الرابعة من مبادرتها.....
اقرأ المزيد
مركز حضانة وريادة الأعمال في جامعة محمد بن زايد للذكاء الاصطناعي يطلق "يوم بِلد إت للعروض التجريبية".....