الصفحة الرئيسية / الأخبار / رصد التحيّز في نماذج توليد الموسيقى: ضعف تمثيل الموسيقى غير الغربية

رصد التحيّز في نماذج توليد الموسيقى: ضعف تمثيل الموسيقى غير الغربية

الاثنين، 28 أبريل 2025

تحمل النماذج اللغوية المخصصة لتوليد الموسيقى إمكانات كبيرة قد تساعد الموسيقيين والملحنين على خفض تكاليف الإنتاج وتسريع عملية التأليف الموسيقي إلا أن أداء هذه الأنظمة لا يزال متفاوتاً بصورة كبيرة بين الأنماط الموسيقية المختلفة، بحسب أثارفا ميهتا، الباحث المشارك في جامعة محمد بن زايد للذكاء الاصطناعي. ويعود ذلك جزئياً إلى أن نسبة ضئيلة فقط من الموسيقى المستخدمة في تدريب أنظمة توليد الموسيقى تنتمي إلى أنماط موسيقية من خارج العالم الغربي.

وفي دراسة حديثة، وجد ميهتا وعدد من الباحثين في الجامعة أن ما لا يتجاوز 5.7% من البيانات الموسيقية المستخدمة في مجموعات التدريب الحالية ينتمي إلى أنماط موسيقية غير غربية، وهو ما يحدّ من قدرة هذه النماذج على إنتاج موسيقى دقيقة أو متقنة ضمن تلك الأنماط.

كما اختبر الباحثون ما إذا كانت تقنية تُعرف باسم:

“الضبط الدقيق عالي الكفاءة للمعاملات باستخدام المهايئات” قادرة على تحسين أداء أنظمة توليد الموسيقى في الأنماط الموسيقية منخفضة التمثيل أي قليلة الاستخدام من قبل النماذج اللغوية.

ومن المقرر أن يعرض ميهتا وزملاؤه نتائج هذه الدراسة خلال المؤتمر السنوي لفرع الأمريكيتين التابع لجمعية اللغويات الحاسوبية (NAACL)، الذي يُعقد في مدينة ألباكيركي بولاية نيو مكسيكو الأمريكية في نهاية أبريل.

وشارك في إعداد الدراسة كل من:

شيفام شوهان، وأميربيك جانيبيكوف، وأثارفا كولكارني، وغس شا، ومونوجيت تشودري من جامعة محمد بن زايد للذكاء الاصطناعي.

استكشاف التحيّز في البيانات الموسيقية

يقول ميهتا إنه لطالما اهتم بالعلاقة بين الثقافة وأنظمة الذكاء الاصطناعي المخصصة لتوليد الموسيقى، وهو مجال بحثي واصل استكشافه خلال عمله في الجامعة.

ويضيف: “هناك انقسام واضح في مشهد توليد الموسيقى بالذكاء الاصطناعي؛ إذ تحظى موسيقى دول الشمال العالمي بتمثيل واسع، بينما تعاني موسيقى الجنوب العالمي من ضعف كبير في الحضور”.

ويتمثل هدفه في تطوير أساليب تجعل أنظمة توليد الموسيقى أكثر شمولاً وتنوعاً، بما يتيح لملايين المستمعين للأنماط الموسيقية غير الغربية الاستفادة من تطبيقات الذكاء الاصطناعي الموسيقي.

ولهذا الغرض، أجرى ميهتا وزملاؤه مسحاً لمجموعات البيانات المستخدمة حالياً في تدريب أنظمة توليد الموسيقى، مع التركيز على مجموعة تضم أكثر من مليون ساعة من المواد الموسيقية.

وكشفت النتائج أن نحو 94% من البيانات المستخدمة تمثل موسيقى من العالم الغربي، في حين لم تتجاوز نسبة الموسيقى القادمة من أفريقيا 0.3%، ومن الشرق الأوسط 0.4%، ومن جنوب آسيا 0.9%.

ويوضح الباحثون أن هذا الخلل في التمثيل يدفع أنظمة توليد الموسيقى إلى الاعتماد على البنى اللحنية والإيقاعية الخاصة بالموسيقى الغربية، حتى عند مطالبتها بإنتاج موسيقى هندية أو شرق أوسطية. كما أظهرت الدراسة أن الأنماط الموسيقية القادمة من أجزاء واسعة من العالم لا تزال ممثلة بشكل محدود للغاية داخل قواعد البيانات الموسيقية الحالية.

أظهر مسحٌ لمجموعات البيانات الموسيقية الحالية أن الأنماط الموسيقية القادمة من أجزاء واسعة من العالم لا تزال ممثلة بشكل محدود، إذ إن 94% من بيانات التدريب المستخدمة تنتمي إلى أنماط موسيقية غربية.

تحسين الأداء عبر “الضبط الدقيق”

إلى جانب الكشف عن هذا الخلل الكبير في تمثيل الأنماط الموسيقية، درس الباحثون إمكانية تحسين أداء أنظمة توليد الموسيقى في الأنماط غير الغربية باستخدام تقنية “الضبط الدقيق عالي الكفاءة للمعاملات باستخدام المهايئات”.

وتُستخدم “المهايئات” (Adapters) على نطاق واسع في معالجة اللغة الطبيعية لتحسين أداء النماذج في لغات أو مهام محددة، إلا أن هذه الدراسة تُعد الأولى التي تطبق هذه التقنية على أنظمة توليد الموسيقى.

وتقوم الفكرة على إضافة نماذج صغيرة متخصصة إلى نموذج أساسي كبير، بحيث تستفيد الأنظمة من القدرات العامة للنموذج الرئيسي، مع اكتساب مهارات إضافية متخصصة عبر “المهايئات”.

وركز الفريق البحثي على نمطين موسيقيين:

الموسيقى الكلاسيكية الهندوستانية
وموسيقى المقام التركي

وقد اختير هذان النمطان بسبب اعتمادهما على هياكل لحنية وإيقاعية تختلف بوضوح عن الموسيقى الغربية مثل الروك والبوب.

كما اختبر الباحثون نظامين لتوليد الموسيقى هما: MusicGen وMustango.

وطوّر الفريق “مهايئات” خاصة يمكن إضافتها إلى هذين النظامين، ثم قام بتدريبها باستخدام مجموعتي بيانات:

MTG Saraga للموسيقى الهندوستانية
Dunya لموسيقى المقام التركي.

وقُسمت البيانات إلى مجموعات تدريب وتحقق، بما وفر نحو 18 ساعة من البيانات التدريبية للموسيقى الهندوستانية، وأكثر من 97 ساعة للمقام التركي. ورغم ذلك، لم تمثل “المهايئات” سوى 0.1% فقط من إجمالي معاملات النماذج الأساسية، ما يعكس كفاءتها العالية من حيث الحجم والموارد.

ماذا كشفت التجارب؟

قيّم الباحثون أداء نماذج MusicGen وMustango قبل وبعد الضبط الدقيق على كلا النمطين الموسيقيين.

واستخدموا نظام تقييم يعتمد على ما يُعرف بـ “المقاييس الموضوعية”، عبر مقارنة الموسيقى المولدة ببيانات التحقق المرجعية، لتظهر النتائج أن نسخة Mustango المعدّلة حققت أفضل أداء في سبعة من أصل ثمانية مؤشرات تقييم.

كما استعان الفريق بأشخاص لديهم معرفة بالنمطين الموسيقيين لتقييم جودة المخرجات الموسيقية وفق إطار مستوحى من “تصنيف بلوم” (Bloom’s Taxonomy) ، الذي يقيس عناصر مثل الاستدعاء والتحليل والإبداع في المخرجات الفنية.

وأظهرت النتائج أن نموذج Mustango المعدّل تحسن بنسبة 8% في الموسيقى الهندوستانية، بينما تحسن نموذج MusicGen بنسبة 4% في المقام التركي. وساعد الضبط الدقيق نموذج Mustango على تحسين قدرته في التقاط البنية اللحنية للموسيقى الهندوستانية بصورة ملحوظة، لكنه أثر سلباً على أدائه في المقام التركي، حيث انخفض مستوى الإبداع الموسيقي. أما نموذج MusicGen، فقد حقق مكاسب محدودة وغير مستقرة بعد عملية الضبط.

ومن الملاحظات المهمة التي توصل إليها الباحثون أن تحسين أداء النماذج في الأنماط غير الغربية أدى في المقابل إلى تراجع أدائها في الموسيقى الغربية.

ويقول ميهتا:

“لاحظنا أن النماذج تبدأ تدريجياً في نسيان ما تعلمته سابقاً”.

ورغم أن استخدام “المهايئات” حقق تحسينات معتدلة في بعض الحالات، فإن النتائج كشفت أيضاً حدود الاعتماد على تعديل نماذج جرى تدريبها أساساً على الموسيقى الغربية.

ويضيف ميهتا: “تحسين هذه الأنظمة لتصبح قادرة على إنتاج موسيقى غير غربية بصورة دقيقة ليس عملية بسيطة يمكن تحقيقها بمجرد إضافة مهايئ جديد”.

وتشير نتائج الدراسة إلى أن معالجة الخلل في بيانات التدريب نفسها — وليس الاكتفاء بإجراء تعديلات لاحقة على النماذج — ستكون خطوة أساسية لجعل أدوات توليد الموسيقى أكثر شمولاً وإتاحةً لمختلف الثقافات.

ويؤكد ميهتا أن فريقه سيواصل خلال المرحلة المقبلة العمل على تعزيز الشمولية الثقافية في الموسيقى المولدة بالذكاء الاصطناعي، من خلال:

معالجة الفجوات في قواعد البيانات الموسيقية،
وتحسين قدرة النماذج على التكيف مع الأنماط الموسيقية المتنوعة،
وتطوير أساليب تقييم تراعي خصوصية الأنواع الموسيقية المختلفة وخصائصها الفنية الأساسية.