التعلُّم الموحَّد وخصوصية البيانات

الابتكارات المتسارعة أتاحت لنا كمؤسسات وكأفراد مستخدمين للتكنولوجيا وتطبيقاتها مزايا كنا نظنّها صعبة المنال، وكلما عظُمت التحدّيات عظُمت الحلول التي تُحاكيها لتُخفف من وطأتها أو تُزيلها تماماً.التعلُّم الموحَّد «Federated Learning» هو أحد الآليـات المساعدة في معالجة التحديات التي تواجهها عمليات تعلُّم الآلة، فمن أهم مقومات تعلّم الآلة هو توفير أحجام ضخمة من البيانات تُرسل للخوادم السحابية مما ينتج عنه مخاطر تتصل بالخصوصية والأمان تتعرّض لها حزَم بيانات التدريب لنماذج تعلُّم الآلة، الأمر الذي تتجنّبه المؤسسات المستخدمة. لذا يقدّم التعلُّم الموحَّد آلية تعمل على توزيع تدريب النماذج عبر أجهزة المستخدمين وتظل البيانات على أجهزتهم بدلاً من إرسالها إلى الخوادم السحابية، فتُـتيح الاستفادة من تعلُّم الآلة إنما بدون جمع بيانات المستخدمين.التقنيات المبتكَرة لـ Edge AI «المسمّاة أيضاً TinyML»، مكّنت المستخدمين من تجنّب إرسال بياناتهم الحساسة إلى خوادم الأنظمة، وهو مجال نشط يُسهّل إنشاء نماذج لتعلُّم الآلة تناسب الهواتف الذكية والأجهزة الذكية الأخرى لكونها تُـتيح إمكانية إجراء الاستدلال على الجهاز، وتسعى شركات التكنولوجيا العالمية الكبرى لتسخير بعض تطبيقات تعلُّم الآلة في أجهزتها المنتجة لتحسين ميزة الخصوصية والأمان.لاستخدام تقنيات تعلُّم الآلة في الأجهزة مزايا عديدة، حيث يُمكن لهذه التطبيقات المواصلة في عملها حتى عندما يكون الجهاز منقطعاً عن الإنترنت، بل إنها تمنح ميزة توفير النطاق الترددي حينما يكون المستخدمين على اتصالات محدودة، فضلاً عن ميزة الاستدلال على الجهاز بكفاءة أكبر باستخدام الطاقة من إرسال البيانات إلى السحابة.ويعتبر الاستدلال على الجهاز ميزة متقدمة لخصوصية تطبيقات تعلُّم الآلة مع بروز تحدٍ يواجهه العلماء وهو الحاجة إلى حزَم البيانات لتدريب النماذج التي تُرسل لأجهزة المستخدمين، ففي حال امتلاك المؤسسة لتلك البيانات المستخدمة لتطوير النماذج فليس ثمة مشكلة «كامتلاك الجامعات والمصارف لبياناتها ووثائقها» أو في حال تكون البيانات عامة «كتلك المعروضة على محركات البحث والتقارير الإخبارية»، إنما تكمن المشكلة في حال عدم امتلاك البيانات. لذلك عندما تعمل المؤسسات على تدريب نماذج تعلُّم الآلة المتضمنة لمعلومات سرية تخص العملاء مثل صور شخصية أو بيانات بيومترية أو مراسلات بريد إلكتروني فإنها تواجه تحدٍّ في جمع بيانات التدريب، لذا يتعيّن عليها أن تتوافق سياستها في التجميع والتخزين مع لوائح حماية البيانات لإزالة معلومات التعريف الشخصية «Personally Identifiable Information»، وفور تدريب نموذج تعلُّم الآلة يُتّخذ قرار الاحتفاظ ببيانات التدريب من عدمه، وتلك سياسة مستمرة في عمليات إعادة تدريب النماذج وتحديثها.كما سبق أن بيّنا بأن الفكرة الأساسية من عملية التعلُّم الموحَّد هي حفظ خصوصية البيانات من خلال تدريب نموذج تعلُّم الآلة على بيانات المستخدمين دون الحاجة لنقل تلك البيانات إلى خوادم سحابية، من أجل ذلك تكون تلك العملية مكررة اعتماداً على دورة التعلُّم الموحَّدة حتى يصل النموذج المستهدف لمستوى مرضٍ من حيث الدقة التي تنشدها المؤسسة، وبمجرد أن يكون النموذج النهائي جاهزاً تتمكن المؤسسة من توزيعه على جميع المستخدمين للاستدلال على الجهاز.