الصفحة الرئيسية / الأخبار / إنجاز علمي يعيد تعريف فهم العلاقات السببية ويكشف ما تخفيه البيانات

إنجاز علمي يعيد تعريف فهم العلاقات السببية ويكشف ما تخفيه البيانات

الاثنين، 18 مايو 2026

لقد شكل فهم أسباب الظواهر وكيفية التأثير في نتائجها أحد أعمدة التقدم العلمي عبر التاريخ؛ فالعلم لا يقتصر على وصف ما يحدث، بل يسعى إلى تفسير “لماذا” يحدث، وكيف يمكن التدخل لتغيير النتائج. ومن هذا السؤال الجوهري نشأ مجال “كشف العلاقة السببية”، أحد أكثر فروع الذكاء الاصطناعي تعقيداً وطموحاً، والذي يعتمد على خوارزميات متقدمة لتحليل المتغيرات واستخلاص العلاقات السببية الحقيقية بينها.

ويختلف هذا المجال بصورة جوهرية عن تقنيات تعلم الآلة التقليدية، التي تستند في معظمها إلى التحليل الإحصائي والاحتمالات للتنبؤ بالنتائج أو اكتشاف الأنماط. فالنماذج اللغوية الكبيرة المعتمدة على تعلم الآلة، على سبيل المثال، تتمتع بقدرة استثنائية على تحليل كميات هائلة من البيانات والتعرف على الأنماط المتكررة، كما تستطيع إنتاج إجابات متماسكة ودقيقة في كثير من الأحيان، لكنها لا “تفهم” بالمعنى الحقيقي ما إذا كانت تلك الإجابات صحيحة من الناحية السببية أو المنطقية.

وفي هذا السياق، يقول كون زانغ، نائب رئيس قسم تعلم الآلة للأبحاث ومدير مركز الذكاء الاصطناعي التكاملي وبروفيسور تعلم الآلة الزائر في جامعة محمد بن زايد للذكاء الاصطناعي: “عندما نتعامل مع التنبؤات، لا يكون هناك بالضرورة نموذج حقيقي للواقع، بل يكون الهدف هو الوصول إلى أفضل أداء ممكن أو تحسين كفاءة النظام؛ أما في عملية كشف العلاقة السببية، فنحن نحاول الوصول إلى الحقيقة ذاتها مع توفير ضمانات لصحة النتائج، وهذا ما يجعل المهمة أكثر تعقيداً من عملية تعلم الآلة التي تركز على التوقعات”.

ولحل هذه الإشكالية شارك زانغ إلى جانب الباحثين هاويو داي، وإيمانويل ألبريخت، وبيتر سبيرتس في إعداد دراسة بحثية جديدة اقترحت خوارزمية متطورة تسد فجوة أساسية في أدوات كشف العلاقات السببية. وقد عُرضت نتائج الدراسة، التي تحمل عنوان “Distributional Equivalence in Linear Non-Gaussian Latent-Variable Cyclic Causal Models: Characterization and Learning”، خلال المؤتمر الدولي الرابع عشر لتمثيلات التعلم (ICLR) في مدينة ريو دي جانيرو البرازيلية.

المتغيرات الكامنة

تتزايد صعوبة كشف العلاقات السببية بسبب وجود عوامل مؤثرة لا يمكن رصدها مباشرة داخل البيانات، وتُعرف باسم “المتغيرات الكامنة” أو الخفية. وتطرح هذه المتغيرات تحدياً مركزياً للباحثين، لأنها تؤثر في النتائج من دون أن تكون مرئية بصورة مباشرة داخل قواعد البيانات أو النماذج الإحصائية.

فعلى سبيل المثال، قد تتضمن دراسة نفسية إجابات لاستبيانات مختلفة تساعد الباحثين على تشكيل تصور عن الحالة النفسية أو السمات الشخصية للأفراد، إلا أن هذه الإجابات ليست سوى انعكاس لعوامل أعمق لا يمكن ملاحظتها مباشرة – مثل السمات السلوكية أو الأنماط النفسية الداخلية.

وينطبق الأمر ذاته على الاقتصاد والأسواق المالية، حيث تتأثر حركة الأسعار وسلوك الأسواق بعوامل عديدة قد لا تظهر في البيانات المتاحة.

ويشير زانغ إلى أن معظم المقاربات السابقة حاولت معالجة هذه المشكلة من خلال فرض “افتراضات بنيوية” مسبقة تحدد طبيعة العلاقات السببية الممكنة داخل النموذج، حيث إن بعضها [أي المقاربات] تفترض أن المتغيرات الكامنة لا تؤثر إلا بطرق محددة على المتغيرات المرصودة، بينما تستبعد أخرى وجود حلقات تغذية راجعة بين هذه المتغيرات، رغم أن هذه الحلقات شائعة في الأنظمة الواقعية المعقدة.

ورغم أهمية هذه الافتراضات في تبسيط النماذج الرياضية وجعلها أكثر قابلية للتحليل، فإنها قد تؤدي في كثير من الأحيان إلى فرض قيود مختلقة على البيانات تؤدي إلى استنتاجات مضللة لا تعكس الواقع بدقة.

لكن المشكلة لا تتوقف عند حدود المتغيرات الكامنة فقط – فقبل تصميم أي خوارزمية قادرة على اكتشاف النماذج السببية الصحيحة، كان على الباحثين الإجابة عن سؤال جوهري ألا وهو: كيف يمكن معرفة ما إذا كان بالإمكان التمييز بين النماذج السببية المختلفة اعتماداً على البيانات المتاحة؟

ففي كثير من الحالات، قد تنتج نماذج سببية مختلفة التوزيع الإحصائي نفسه للبيانات المرصودة، ما يجعل من المستحيل على أي خوارزمية تحديد النموذج الصحيح بشكل قاطع. وتُعرف هذه المجموعة من النماذج باسم “فئة التكافؤ”، ومن دون فهم حدود هذه الفئة يصبح من غير الممكن تحديد ما يمكن للخوارزمية اكتشافه فعلياً.

يَضرِب زانغ – لتقريب الفكرة – مثالاً بسيطاً يفترض فيه وجود متغيرين فقط [X وY] تجمعهما علاقة خطية ويتبعان توزيعاً غاوسياً (طبيعياً). ففي هذه الحالة، لا يكفي وجود ترابط إحصائي بين المتغيرين لتحديد اتجاه العلاقة السببية؛ إذ قد يبدو توزيع البيانات متطابقاً سواء كان X هو المسبب لـ Y أو العكس.

لكن من منظور سببي، يظل الفرق جوهرياً – ويوضح زانغ ذلك بقوله: “في إحدى الحالتين قد نستنتج أن الأعراض تسبب المرض، بينما في الحالة الأخرى يكون المرض هو المسبب للأعراض”. ومن الواضح أن هذين التفسيرين لا يمكن أن يكونا صحيحين في الوقت نفسه.

وتصبح المشكلة أكثر تعقيداً بالانتقال إلى الأنظمة التي تتضمن عدداً كبيراً من المتغيرات الظاهرة والكامنة، حيث يتزايد عدد النماذج السببية المتكافئة بصورة هائلة، ما دفع بالمقاربات السابقة إلى الاعتماد على افتراضات إضافية لتقليص ما يُعرف بـ “فئة التكافؤ” وجعلها قابلة للتحليل، غير أن صحة النتائج بقيت مرهونة بصحة تلك الافتراضات نفسها.

أما الدراسة الجديدة، فتنطلق من منطلق مغاير تماماً؛ فبدلاً من تقييد المشكلة بسلسلة من الافتراضات البنيوية المسبقة، يطرح الباحثون سؤالاً أساسياً وهو: ما الشكل الكامل لفئة التكافؤ في حال تم التخلي عن جميع الافتراضات البنيوية المسبقة؟

خوارزمية جديدة

في دراستهم، تمكن الباحثون لأول مرة من وضع توصيف للتكافؤ التوزيعي للنماذج الخطية غير الغاوسية التي تتضمن متغيرات كامنة اعتباطية وحلقات تغذية راجعة. وهذا يعني أنه بالنسبة لأي نموذجين سببيين من هذا النوع، يمكن للباحثين تحديد ما إذا كان يمكن تمييزهما من خلال الملاحظات أم لا. كما يمكنهم تحليل جميع النماذج ضمن فئة التكافؤ، واستخراج هذه الفئة من البيانات دون فرض افتراضات بنيوية حول كيفية تصرّف المتغيرات الكامنة.

وتشكل، في هذا السياق، أداة تُعرف باسم [Edge Ranks] محور هذه المنهجية. وقد استخدَمت أبحاث سابقة في هذا المجال مفهوماً يسمى [Path Ranks]، والذي يقيس كيفية انتقال المعلومات عبر الرسم البياني السببي. ورغم فائدة هذا المفهوم، فإنه قد يكون صعب الاستخدام، نظراً لأن التغييرات فيه قد تؤثر بشكل شامل على كامل الرسم البياني. وكما يوضّح الباحثون في دراستهم، فإن [Edge Ranks] يعمل بشكل أكثر محلية وهو “أسهل في الاستخدام”، كما أنه يُكمل [Path Ranks].

وبناءً على هذا الإطار، طوّر الباحثون خوارزمية تُدعى glvLiNG [الاكتشاف السببي العام الخطي غير الغاوسي مع متغيرات كامنة]. ويمكن لهذه الخوارزمية “استكشاف” فئة التكافؤ بالكامل بكفاءة، أي أنها تستطيع الانتقال بشكل منهجي بين النماذج المتكافئة، وتحديد الخصائص السببية المؤكدة وتلك الغامضة استناداً إلى البيانات.

ويقول زانغ إن منهج الفريق يمثل “اختراقاً” بالمعنى العلمي، حيث إنه – في ظل افتراضات معتدلة – يمكنه حصر جميع الحلول الممكنة ضمن فئة تكافؤ، ويوفّر طرقاً لاستكشاف هذه الحلول وإعادة بناء فئة التكافؤ اعتماداً على البيانات.

أجرى الباحثون عدة تجارب باستخدام خوارزمية glvLiNG، منها تجربة على بيانات أسعار الأسهم اليومية لـ 14 شركة مدرجة في بورصة هونغ كونغ. وقد حدّدت الخوارزمية فئة تكافؤ تضم أكثر من 19 ألف رسم بياني سببي يحتوي على متغيرين كامنين. كما تمكّنت من تحديد أنماط سببية ذات معنى، حيث ظهرت البنوك الكبرى كعوامل مؤثرة أولية، فيما بدت شركات العقارات كجهات تتلقى التأثيرات لاحقاً. وكان أحد المتغيرات الكامنة قابلاً للتفسير، حيث وصف هيكل ملكية مشترك بين الشركات.

التعاون وعصر الذكاء الاصطناعي المقبل

لتحقيق هذا الإنجاز، اضطر الباحثون إلى حل مسألة صعبة في نظرية الرسوم البيانية، وهي مجال خارج نطاق خبراتهم. وأدى ذلك إلى تواصل المؤلف الرئيسي للدراسة، هاويو داي، مع خبراء في هذا المجال. وكان من بين من استجابوا إيمانويل ألبريخت، أستاذ في جامعة فيرن أونيفرسيتيت في هاغن بألمانيا، حيث شكّلت خبرته مساهمة حاسمة في تطوير مفهوم [Edge Ranks].

ويشير زانغ إلى أنه في وقت يتركز فيه اهتمام المجال على التوسّع والتطبيقات، تُذكّر هذه الدراسة بوجود مسائل أساسية ما تزال مفتوحة، وأن معالجتها قد تؤدي إلى رؤى مهمة.

ويختتم قائلاً: “إنها مثال على كيف يمكن للابتكارات في اكتشاف العلاقات السببية أن تُسهم فعلاً في تشكيل الجيل القادم من النماذج، وكيف يمكن لأشخاص من مجالات أخرى، مثل الرياضيات، مساعدتنا في بناء أنظمة ذكاء اصطناعي أفضل وإنتاج شيء جديد”.