عندما يسعى مستشفيان إلى فهم العلاقة بين صور الرنين المغناطيسي والملفات الجينومية يواجهان مشكلة صعبة فإما أن يجمعا بياناتهما في مكان واحد وإجراء تحليل إحصائي تقليدي، وهو حل فعّال لكنه يتطلب نقل السجلات الحساسة للمرضى خارج المؤسسات التي جمعتها، أو يمكنهما الاحتفاظ بالبيانات في كل مستشفى، مما يعني عدم إمكانية إجراء بعض أنواع التحليلات المشتركة. وقد ظلّ هذا التحدي قائماً على مدى عقود مضت.
لكن فريقاً من الباحثين في جامعة محمد بن زايد للذكاء الاصطناعي اقترح طريقة لمعالجة هذه المشكلة من خلال منهجية اسمها “FedCCA” سيجري عرضها خلال مؤتمر الذكاء الاصطناعي والإحصاء في طنجة بالمغرب، إذ تعالج مسألة إحصائية محددة لها فوائد عديدة تُعرف باسم “تحليل الارتباط القانوني”، وهي طريقة تهدف إلى اكتشاف البنية المشتركة بين تمثيلين مختلفين للبيانات نفسها. ويمكن تبسيط الفكرة باعتبارها محاولة للإجابة عن السؤال التالي: “ما هو القاسم المشترك بين هاتين الرؤيتين للعالم؟” يعود أصل هذه المنهجية إلى أعمال هارولد هوتلينغ في ثلاثينيات القرن الماضي، ولا تزال حتى اليوم أداة أساسية في مجالات تمتد من الرؤية الحاسوبية إلى علوم الأعصاب.
تكمن المشكلة في أن تحليل الارتباط القانوني، بصيغته التقليدية يتطلب إجراء عمليات عكس لمصفوفات تباين كبيرة، وهي عملية مكلفة حتى عند تنفيذها على جهاز واحد. كما أن المحاولات السابقة لتوزيع هذا النوع من التحليل كانت إما تتطلب من خادم مركزي إجراء عمليات جبر خطي معقدة على إحصاءات مجمّعة، أو كانت تعتمد على ترتيب مختلف تماماً للبيانات يُعرف باسم “الترتيب الرأسي”، حيث يكون لدى كل طرف سمات مختلفة للأشخاص أنفسهم، بدلاً من “الترتيب الأفقي”، حيث يكون لدى كل طرف أشخاص مختلفين لهم السمات نفسها.
الفكرة الأساسية في المنهجية “FedCCA” ليست تقديم بنية عصبية جديدة أو خوارزمية تحسين مبتكرة، بل استبدال عمليات عكس المصفوفات التي تشكل جوهر تحليل الارتباط القانوني بمتسلسلة فون نيومان مقطوعة، وهي نتيجة كلاسيكية في التحليل الدالي تتيح التعبير عن معكوس بعض المصفوفات بوصفه مجموعاً لا نهائياً من القوى، وعند قطع هذا المجموع بعد عدد محدود من الحدود، نحصل على تقريب يتناقص خطؤه هندسياً مع كل حد إضافي يُضاف إلى المتسلسلة.
قد تبدو هذه مجرد عملية إعادة ترتيب جبرية بسيطة، وهي كذلك إلى حد ما، ولكن تبعاتها كبيرة، فعمليات عكس المصفوفات تُعد عمليات مركزية تصعب تجزئتها، حيث تتطلب وجود المصفوفة كاملة في مكان واحد، كما أن الحسابات المرتبطة بها لا يمكن توزيعها بسهولة. أما متسلسلة القوى المقطوعة، فهي في المقابل ليست سوى سلسلة من عمليات ضرب المصفوفة في المتجه. ويمكن تنفيذ كل عملية ضرب بشكل منفصل في جهاز العميل باستخدام بياناته الخاصة، بينما يُرسل فقط الناتج منخفض الأبعاد إلى خادم مركزي لتجميعه. ويرى الخادم إسقاطات مضغوطة يُختار بعدها k بحيث يكون أصغر بكثير من أبعاد البيانات أو عدد العينات في أي جهاز عميل.
يطلق زيكيانغ زو، الأستاذ المساعد في قسم تعلم الآلة وأحد المشاركين في إعداد الورقة البحثية، على هذه الآلية اسم “آلية الضرب المتناوب للمصفوفة والمتجه”. ففي كل خطوة، يبث الخادم التقدير الحالي لمصفوفات الإسقاط، ثم تقوم الأجهزة العميلة بضرب بياناتها المحلية في تلك المصفوفات وإرسال النتائج مجدداً، ليُنشئ الخادم التكرار التالي. وتظل الرؤيتان ثابتتين طوال عملية التحسين، في حين تتناوب الخوارزمية بين تحديث مصفوفتَي الإسقاط المرتبطتين بكل منهما: حيث يُحدَّث إسقاط إحدى الرؤيتين باستخدام الإسقاط الحالي للرؤية الأخرى، والعكس صحيح، إلى أن يحدث التقارب.
الإسقاطات منخفضة الأبعاد تجعل من الصعب على الخادم إعادة بناء البيانات الخام فالاتصال الواحد يمنح الخادم عدداً من المعادلات أقل بكثير من عدد المجاهيل، ولكن هذه الصعوبة لا تعني الاستحالة، فمن حيث المبدأ يمكن لخادم خبيث يوجّه عدداً كافياً من الاستعلامات المختارة بعناية إلى العميل نفسه أن يعيد بناء بيانات ذلك العميل، فالنظام غير المحدد يصبح محدداً بمجرد أن يجمع الخادم عدداً كافياً من الإسقاطات المستقلة.
لسد هذه الفجوة، تقدّم المنهجية “FedCCA” امتداداً يُعرف باسم “FedCCA-DP” يضيف فيه كل عميل تشويش جاوسي محسوب إلى الإسقاطات التي يرسلها. وتتضمن هذه المنهجية مبرهنتين تحددان معاً نطاقاً عملياً لكمية التشويش الممكن استخدامها. وتحدد المبرهنة الثانية حداً أدنى للتشويش المطلوب لضمان الخصوصية التفاضلية (ε,δ)، وهي التعريف الرسمي القياسي الذي يقيّد مقدار ما يمكن لأي طرف استنتاجه بشأن أي سجل فردي. أما المبرهنة الثالثة فتحدد حداً أعلى للتشويش الذي يمكن لعملية التحسين تحمّلها قبل انهيار التقارب. فإذا تجاوز الحد الأدنى الحد الأعلى، تصبح العملية غير قابلة للتطبيق. أما إذا لم يحدث ذلك، فسيكون هناك نطاق عملي يمكن للمتخصصين اختيار نقطة العمل المناسبة ضمنه وفقاً لمدى تفضيلهم للخصوصية مقارنة بالدقة.
وتتسم المفاضلة بين الخصوصية والدقة ببنية واضحة. حيث يتحكم ترتيب المتسلسلة m في جودة التقريب: فكلما ارتفعت قيمة m، انخفض خطأ التقريب، لكن ذلك يعني أيضاً زيادة عدد الاستعلامات في كل جولة، وبالتالي الحاجة إلى مزيد من التشويش عبر البروتوكول. ويتناسب العدد الإجمالي للاستعلامات الخاصة مع 4(2+2m)TM، حيث يمثل T عدد التكرارات الخارجية ويمثل M عدد العملاء. ولا يعتمد التشويش المضاف إلى كل استعلام على قيمة m، لكن الخسارة التراكمية في الخصوصية تعتمد عليها بصورة خطية. وهكذا تعمل m كمعامل ضبط يوازن في الوقت نفسه بين هدفين متنافسين.
اختبر الباحثون المنهجية على خمس مجموعات بيانات تغطي مجالات متعددة، تشمل تصنيف الوسائط المتعددة (Mediamill)، ونطق الكلام (JW11)، والأرقام المكتوبة بخط اليد (MNIST)، والتعرف على الأجسام متعددة السمات (MFEAT)، وتصنيف الصور الطبيعية (Caltech101). وتُعد هذه مجموعات قياسية لاختبار تحليل الارتباط القانوني وليست تطبيقات صناعية واسعة النطاق.
أظهرت المنهجية “FedCCA” أداءً قوياً بالمقارنة مع الطريقتين المرجعيتين الأساسيتين القابلتين للتطبيق عملياً في بيئة تعلّم متحد أفقي مع الخصوصية التفاضلية، وهما “المربعات الصغرى المتناوبة” ونسختها “المتناوبة بالكامل”. ففي مجموعة البيانات “MNIST” وعدة مجموعات أخرى، حققت المنهجية “FedCCA” نتائج أقرب بكثير للحل الرياضي الأمثل مقارنة بالطرق الأخرى، ما يعني أن تقديراتها للارتباطات القانونية كانت أكثر دقة. كما سجلت تقارباً أسرع، حيث احتاجت في المتوسط إلى عدد من دورات المعالجة الكاملة للبيانات أقل بنحو 20% مقارنة بالطرق الأخرى.
وفي مجموعات البيانات “JW11″ و”MNIST” و”MFEAT”، تفوقت المنهجية “FedCCA” المزودة بتشويش الخصوصية التفاضلية حتى على الطرق المرجعية التي تعمل من دون أي تشويش على الإطلاق. ولا يعود ذلك إلى أن التشويش حسّن الأداء بطريقة ما، بل لأن آلية الضرب المتناوب للمصفوفة والمتجه، التي تشكل أساس المنهجية، تنطلق من نقطة أفضل بكثير مقارنة بطريقة “المربعات الصغرى المتناوبة”، ولم تكن كلفة التشويش كافية لإلغاء هذه الأفضلية.
وعند اختبار المنهجية “FedCCA” على المجموعة “MNIST” مع بيانات موزعة على 10 عملاء، استهلكت المنهجية قدرة حوسبية بلغت 0.15 جيجا فلوب مقارنة بـ 28 جيجا فلوب لطريقة تحليل الارتباط القانوني الموزع مع الخصوصية التفاضلية التي اقترحها حافظ امتياز وأناند سرواتي عام 2019. كما انخفضت كلفة الاتصال من 9.28 ميجابايت إلى 5.11 ميجابايت. ويعود هذا التحسن إلى تجنب تحليل القيمة الفردية المركزي الذي كانت تتطلبه الطرق السابقة.
تعتمد جميع التجارب على تقسيمات متوازنة ومتطابقة التوزيع للبيانات بين العملاء، لكن الواقع العملي مختلف، فالمرضى لا يتوزعون على المستشفيات بشكل متساوٍ، كما أن خصائصهم قد تختلف بصورة كبيرة. لذلك يبقى سلوك آلية الضرب المتناوب للمصفوفة والمتجه في ظل هذا التنوع سؤالاً مفتوحاً. كما أن عدد العملاء في التجارب لم يتجاوز 10، وهو رقم بعيد جداً عن آلاف أو ملايين الأجهزة المستخدمة في التعلم المتحد على الأجهزة المحمولة. وعلى الرغم من أن حسابات الخصوصية في الدراسة دقيقة من الناحية النظرية، فهي ما تزال تُجرى على مستوى كل جولة على حدة، وإذا أُجري تحليل أدق لتراكم خسائر الخصوصية عبر كامل عمر البروتوكول، فقد تتغير متطلبات التشويش من الناحية العملية.
إضافة إلى ذلك، تعالج المنهجية “FedCCA” تحليل الارتباط القانوني الخطي، بينما اتجه مجتمع التعلّم العميق إلى نسخ غير خطية مثل تحليل الارتباط القانوني العميق، الذي يستخدم الشبكات العصبية لتعلّم تحويلات لكل تمثيل من البيانات قبل حساب الارتباط بينها. ولكن من الصعب تطبيق الطريقة القائمة على متسلسلة فون نيومان على النماذج العميقة غير الخطية، لأن هذه الطريقة تعتمد على خصائص رياضية محددة في مصفوفات التباين الذاتي، وهي خصائص قد تُفسدها التحويلات المعقدة التي تنتجها الشبكات العصبية.
تكمن أهمية هذا العمل في مساهمته المنهجية في مجال التعلّم المتحد متعدد التمثيلات، فمن خلال إعادة صياغة تحليل الارتباط القانوني المنظَّم باستخدام متسلسلة فون نيومان المقطوعة، تستبدل الورقة البحثية عمليات عكس المصفوفات الصريحة وتحليل التباين المركزي بعمليات ضرب متناوبة للمصفوفة والمتجه، وهي عمليات تنسجم بصورة طبيعية مع الحوسبة المحلية لدى العملاء والاتصال منخفض الأبعاد.
ولا تقتصر أهمية ذلك على كونه تحسيناً في التنفيذ، بل لأنه يغيّر الصيغة الحاسوبية لتحليل الارتباط القانوني بطريقة تجعل هذه المنهجية قابلة للتطبيق في بيئات التعلم المتحد المقيّدة بالخصوصية، مع الحفاظ في الوقت نفسه على تحكم واضح في خطأ التقريب والمفاضلات بين الخصوصية والتقارب. ومن هذا المنطلق، تقدم الورقة منهجية لتكييف الأساليب الطيفية القائمة على الارتباط مع البيئات الموزعة.
وبالنسبة للعاملين في مجالات الرعاية الصحية والاتصالات وغيرها من القطاعات التي تمتلك بيانات متعددة الوسائط لكنها معزولة داخل مؤسسات منفصلة، تشير المنهجية “FedCCA” إلى أن المفاضلة بين المنفعة والخصوصية قد لا تكون كبيرة بالقدر الذي تبدو عليه. وربما تكون الفجوة بين ما يمكن تعلمه من البيانات المركزية وما يمكن تعلمه من بيانات التعلم المتحد أصغر بكثير مما كنا نعتقد، على الأقل في هذا النوع من التحليل الإحصائي الموزع.
باحثون من جامعة محمد بن زايد للذكاء الاصطناعي، يطورون تقنية جديدة تساعد في الضبط الدقيق للنماذج اللغوية.....
عبدالله المنصوري يشرح كيف ساعده التخصص في مجال تعلّم الآلة من الإسهام في رسم ملامح أبحاث الذكاء.....
خريجة الماجستير بشاير السريدي تشرح كيف أن رغبتها في أن تفخر الإمارات بها منحتها الدافع الذي احتاجته.....