نواصل موضوع أمن المعلومات وننشر ترجمة مقالة Coussement Bruno.
هل تريد إضافة ضوضاء إلى البيانات الموجودة ، أو إضافة ضوضاء فقط إلى نتائج معالجة البيانات ، أو إنشاء بيانات تركيبية؟ دعونا نثق في حدسنا؟
تنمو الشركات وأصبحت لوائح الأمن السيبراني أكثر صرامة ، ويتبنى كبار المهندسين المعماريين الاتجاهات ... كل هذا يؤدي إلى حقيقة أن الحاجة (أو الالتزام) لتقليل المخاطر المرتبطة بالخصوصية وتسرب المعلومات يزيد فقط لموضوعات البيانات.
في هذه الحالة ، تُستخدم أساليب إخفاء الهوية أو تحويل البيانات إلى رموز على نطاق واسع ، على الرغم من أنها تتيح أيضًا إمكانية الكشف عن المعلومات الخاصة (راجع هذه المقالة لفهم سبب حدوث ذلك).
توليد البيانات التركيبية
البيانات التركيبية لها اختلاف جوهري. الهدف هو إنشاء منشئ بيانات يعرض نفس الإحصائيات العالمية مثل البيانات الأصلية. يجب أن يكون التمييز بين الأصل والنتيجة النهائية أمرًا صعبًا بالنسبة للنموذج أو الشخص.
دعنا نوضح ما سبق من خلال إنشاء بيانات تركيبية على مجموعة بيانات Covertype باستخدام نموذج TGAN .
بعد تدريب النموذج على هذا الجدول ، قمت بإنشاء 5000 صف ورسمت رسمًا بيانيًا لعمود الارتفاع للمجموعة الأصلية والمولدة. يبدو أن كلا الخطين يتطابقان بصريًا.
للتحقق من العلاقة بين أزواج الأشرطة ، يتم عرض رسم بياني مزدوج لجميع الأشرطة المستمرة. يجب أن يتطابق الشكل الذي تشكله النقاط الزرقاء والخضراء (التي تم إنشاؤها) بصريًا مع شكل النقاط الحمراء (الأصلي). وهكذا حدث ، رائع!
إذا نظرنا الآن إلى المعلومات المتبادلة (المعروفة أيضًا باسم الارتباط غير الموقعة) بين الأعمدة ، فيجب أيضًا ربط الأعمدة المرتبطة ببعضها البعض في المجموعة التي تم إنشاؤها. على العكس من ذلك ، يجب عدم ربط الأعمدة غير المرتبطة في المجموعة الأصلية بالمجموعة التي تم إنشاؤها. تعني القيمة القريبة من 0 عدم وجود ارتباط ، وتعني القيمة القريبة من 1 ارتباطًا مثاليًا. رائع ، إنه كذلك!
المعلومات المتبادلة بين المجموعة الأصلية للأعمدة:
المعلومات المتبادلة بين مجموعة الأعمدة المُنشأة:
كاختبار نهائي ، أردت تدريب طريقة تقليل الأبعاد غير الخطية ( UMAP ) على المجموعة الأصلية وعرض نقاط الأصل في مساحة ثنائية الأبعاد. أقوم بإدخال المجموعة التي تم إنشاؤها في نفس جهاز العرض. يجب أن تكون التقاطعات البرتقالية (المُنشأة) في السحب ذات النقاط الزرقاء لمجموعة البيانات الأصلية. وهناك! ممتاز!
حسنًا ، تجربة البيانات ممتعة!
للحالات الأكثر خطورة ، هناك طريقتان رئيسيتان:
- النماذج التوليدية العميقة: يمكن استخدامها لدراسة التوزيع الإحصائي الذي من المفترض أن البيانات الحقيقية مأخوذة منه. إذا كان لديك تقريب لهذا التوزيع ، فيمكنك أخذ عينة عشوائية من مجموعة بيانات تركيبية ذات حجم تعسفي منه. هذا ما يفعله كل الرجال الرائعين الآن.
ومن الجدير الالتفات الى مبادرات مثل قبو البيانات الاصطناعية ، Gretel.AI ، Mostly.ai ، MDClone ، الضبابي .
اليوم يمكنك بالفعل كتابة إثبات المفهوم باستخدام البيانات التركيبية لحل إحدى المشكلات الشائعة التالية التي تواجهها مؤسسات تكنولوجيا المعلومات:
- لا توجد حمولة في بيئة التطوير
لنفترض أنك تعمل على منتج بيانات (يمكن أن يكون أي شيء) حيث تكون البيانات التي تهتم بها في بيئة إنتاج ذات سياسة وصول صارمة للغاية. لسوء الحظ ، لا يمكنك الوصول إلى بيئة التطوير إلا بدون بيانات مثيرة للاهتمام.
- God Mode - حقوق الوصول للمهندسين وعلماء البيانات
لنفترض أنك عالم بيانات وفجأة حد مسؤول أمن المعلومات من الامتيازات التي تشتد الحاجة إليها للوصول إلى بيانات الإنتاج. كيف يمكنك الاستمرار في الأداء الجيد في مثل هذه البيئات الصعبة والمحدودة؟
- نقل البيانات الحساسة إلى شريك خارجي غير موثوق به
أنت جزء من الشركة "س". ترغب المؤسسة "ص" في عرض أحدث منتجات البيانات الرائعة (يمكن أن تكون أي شيء).
يطلبون منك استخراج البيانات لإظهار المنتج لك.
ما علاقة البيانات التركيبية بالخصوصية التفاضلية؟
الخاصية الرئيسية لتوليد البيانات التركيبية هي أنه ، بغض النظر عن المعالجة اللاحقة أو إضافة معلومات الطرف الثالث ، لن يتمكن أي شخص من معرفة ما إذا كان الكائن موجودًا في المجموعة الأصلية ، كما أنه لن يتمكن من الحصول على خصائص هذا الكائن. هذه الخاصية هي جزء من مفهوم أوسع يسمى الخصوصية التفاضلية (DP).
الخصوصية التفاضلية العالمية والمحلية
ينقسم موانئ دبي إلى نوعين.
في كثير من الأحيان ، تكون نتيجة مهمة معينة فقط ذات أهمية (على سبيل المثال ، تدريب نموذج يعتمد على بيانات غير معلنة لمرضى من مستشفيات مختلفة ، وحساب متوسط عدد الأشخاص الذين ارتكبوا جريمة ، وما إلى ذلك) ، ثم يجب الانتباه إلى الخصوصية التفاضلية العالمية
في هذه الحالة ، لن يرى المستخدم غير الموثوق به بيانات حساسة أبدًا. بدلاً من ذلك ، يخبر المنسق الموثوق (مع آليات الخصوصية التفاضلية العالمية) ، الذي لديه حق الوصول إلى البيانات الحساسة ، ما هي العمليات التي يجب إجراؤها.
يتم الإبلاغ عن النتيجة فقط إلى المستخدم غير الموثوق به. أوصي بـ Pysyft و OpenDPإذا كنت بحاجة إلى مزيد من المعلومات حول أدوات مماثلة.
في المقابل ، إذا كان سيتم نقل البيانات إلى طرف غير موثوق به ، فإن مبادئ السرية التفاضلية المحلية تدخل حيز التنفيذ. تقليديا ، يتم تحقيق ذلك عن طريق إضافة ضوضاء إلى كل صف في جدول أو قاعدة بيانات. يعتمد مقدار الضوضاء المضافة على:
- المستوى المطلوب من السرية (إبسيلون الشهير في أدبيات DP) ،
- حجم مجموعة البيانات (تتطلب مجموعة بيانات أكبر ضوضاء أقل لتحقيق نفس مستوى السرية) ،
- نوع بيانات العمود (كمي ، فئوي ، ترتيبي).
نظريًا ، للحصول على مستوى متساوٍ من السرية ، ستوفر آلية DP العالمية (إضافة ضوضاء إلى النتيجة) نتائج أكثر دقة من الآلية المحلية (ضوضاء على مستوى الخط).
وبالتالي ، يمكن اعتبار طرق توليد البيانات التركيبية كشكل من أشكال DP المحلية.
لمزيد من المعلومات حول هذه الموضوعات ، أنصحك بالرجوع إلى المصادر التالية:
- www.udacity.com/course/secure-and-private-ai--ud185
- medium.com/@arbidha1412/local-and-global-differential-privacy-249aaa3571
- www.openmined.org
توصية
لنلقِ نظرة الآن على مثال أكثر تحديدًا. تريد مشاركة جدول بيانات يحتوي على معلومات شخصية مع جهة غير موثوق بها.
في الوقت الحالي ، يمكنك إما إضافة ضوضاء إلى خطوط البيانات الحالية (DP المحلية) ، أو تكوين واستخدام نظام قوي (DP عالمي) ، أو إنشاء بيانات تركيبية بناءً على الأصل.
يجب إضافة الضوضاء إلى خطوط البيانات الموجودة إذا
- لا تعرف ما هي العملية التي سيتم إجراؤها على البيانات بعد النشر ،
- تحتاج إلى مشاركة تحديث للبيانات الأصلية بشكل دوري (= اجعل سير العمل هذا جزءًا من عملية مجمعة ثابتة) ،
- تثق أنت ومالكو البيانات في الشخص / الفريق / المنظمة لإضافة ضوضاء إلى البيانات الأصلية.
هنا أوصي بالبدء باستخدام أدوات OpenDP .
الحالة الأكثر شهرة للخصوصية التفاضلية هي في تعداد الولايات المتحدة (انظر databricks.com/session_na20/using-apache-spark-and-differential-privacy-for-protecting-the-privacy-of-the-2020-census-respondents ).
يتم إعادة حساب هذه البيانات وتحديثها كل ثلاث سنوات. هي في الغالب بيانات رقمية يتم تجميعها ونشرها على مستويات متعددة (المقاطعة ، الولاية ، المستوى الوطني).
قم بتثبيت واستخدام نظام موثوق إذا
- يدعم النظام الذي حددته المهام والعمليات التي سيتم تنفيذها عليه ،
- يتم تخزين البيانات الأساسية في أماكن مختلفة ولا يمكن تركها (على سبيل المثال ، في مستشفيات مختلفة) ،
- تثق أنت ومالكو البيانات بالفعل في النظام الحالي والشخص / الفريق / المنظمة التي تقوم بإعداده.
كمستخدم للبيانات الحساسة ، ستحصل على نتائج أكثر دقة من الطريقة الأولى.
لا تمتلك العديد من أطر العمل حاليًا جميع الميزات الضرورية لنشر هذا الوحش بطريقة آمنة وقابلة للتطوير وقابلة للتدقيق. لا يزال هناك الكثير من العمل الهندسي المطلوب هنا.
ولكن مع تزايد اعتمادها ، يمكن أن تكون DP بديلاً جيدًا للمؤسسات والشركات الكبيرة. أوصي
بالبدء هنا مع OpenMined .
من الممكن إنشاء بيانات تركيبية إذا
- الجدول الأصلي صغير نسبيًا (أقل من مليون صف ، <100 عمود) ،
- ad-hoc ( ),
- / / , .
كما هو الحال مع التجربة الصغيرة الموضحة أعلاه ، فإن النتائج واعدة. كما أنه لا يتطلب معرفة ممتازة بأنظمة DP. يمكنك أن تبدأ اليوم ، إذا كنت بحاجة إلى ذلك ، اتركها تتدرب طوال الليل ، وإذا جاز التعبير ، قم بإعداد المجموعة الاصطناعية المشتركة لصباح الغد.
أكبر عيب هو أن هذه النماذج المعقدة يمكن أن تصبح مكلفة للتدريب والصيانة إذا زاد مقدار البيانات. يتطلب كل جدول أيضًا تدريب نموذج كامل خاص به (لن يعمل التدريب المحمول هنا). لن تتمكن من التوسع إلى مئات الجداول ، حتى مع وجود ميزانية حسابية كبيرة.
وإلا فلن يحالفك الحظ.
خاتمة
نظرًا لأن خصوصية البيانات أصبحت أكثر أهمية الآن من أي وقت مضى ، فلدينا طرق ممتازة لإنشاء بيانات تركيبية أو إضافة ضوضاء إلى البيانات الموجودة. ومع ذلك ، لا يزال لديهم جميعًا قيودهم. بصرف النظر عن بعض الحالات المتخصصة ، لم يتم حتى الآن إنشاء أداة مرنة وقابلة للتطوير على مستوى المؤسسة والتي من شأنها أن تسمح بنقل البيانات التي تحتوي على معلومات شخصية إلى أطراف غير موثوق بها.
لا يزال مالكو البيانات بحاجة إلى الوثوق في الأساليب أو الأنظمة المعمول بها ، الأمر الذي يتطلب الكثير من الثقة منهم. هذه هي أكبر مشكلة!
حتى ذلك الحين ، إذا كنت ترغب في تجربته (إثبات المفهوم ، ما عليك سوى اختباره) ، فافتح أيًا من الروابط أعلاه.