هل ترغب شركتك في جمع البيانات وتحليلها لدراسة الاتجاهات دون التضحية بالخصوصية؟ أو ربما تستخدم بالفعل أدوات مختلفة للحفاظ عليها وترغب في تعميق معرفتك أو مشاركة تجربتك؟ على أي حال ، هذه المادة لك.
ما الذي دفعنا لبدء هذه السلسلة من المقالات؟ في العام الماضي ، أطلقت NIST مساحة تعاون هندسة الخصوصية- منصة للتعاون ، والتي تحتوي على أدوات مفتوحة المصدر ، بالإضافة إلى حلول وأوصاف العمليات اللازمة لتصميم سرية الأنظمة وإدارة المخاطر. بصفتنا المشرفين على هذه المساحة ، نساعد NIST في جمع أدوات الخصوصية التفاضلية المتاحة في مجال إخفاء الهوية. كما نشرت NIST إطار الخصوصية: أداة لتحسين الخصوصية من خلال إدارة المخاطر المؤسسية و خطة العمل التي تحدد مجموعة من المخاوف المتعلقة بالخصوصية، بما في ذلك إخفاء الهوية. نريد الآن مساعدة مساحة التعاون على تحقيق الأهداف المحددة في خطة إخفاء الهوية (إزالة الهوية). في النهاية ، ساعد NIST في تطوير هذه السلسلة من المنشورات إلى دليل أعمق للخصوصية التفاضلية.
ستبدأ كل مقالة بمفاهيم أساسية وأمثلة تطبيقية لمساعدة المهنيين - مثل مالكي العمليات التجارية أو مسؤولي خصوصية البيانات - على تعلم ما يكفي ليصبحوا خطرين (مجرد مزاح). بعد مراجعة الأساسيات ، سنقوم بتحليل الأدوات المتاحة والأساليب المستخدمة فيها ، والتي ستكون مفيدة بالفعل لأولئك الذين يعملون على تطبيقات محددة.
سنبدأ مقالنا الأول بوصف المفاهيم والمفاهيم الأساسية للخصوصية التفاضلية ، والتي سنستخدمها في المقالات اللاحقة.
صياغة المشكلة
كيف يمكنك دراسة بيانات السكان دون التأثير على أفراد معينين من السكان؟ دعنا نحاول الإجابة على سؤالين:
- كم عدد الناس الذين يعيشون في فيرمونت؟
- كم شخصًا يُدعى جو نير يعيشون في فيرمونت؟
يتعلق السؤال الأول بخصائص السكان بالكامل ، ويكشف الثاني عن معلومات حول شخص معين. نحن بحاجة إلى أن نكون قادرين على معرفة الاتجاهات لجميع السكان ، مع عدم السماح بمعلومات عن فرد معين.
ولكن كيف يمكننا الإجابة على السؤال "كم عدد الأشخاص الذين يعيشون في فيرمونت؟" - الذي سنسميه كذلك "استفسار" - دون الإجابة على السؤال الثاني "كم عدد الأشخاص الذين يحملون اسم جو نير ويعيشون في فيرمونت؟" الحل الأكثر شيوعًا هو إزالة الهوية (أو إخفاء الهوية) ، والذي يتمثل في إزالة جميع معلومات التعريف من مجموعة البيانات (من الآن فصاعدًا ، نعتقد أن مجموعة البيانات الخاصة بنا تحتوي على معلومات عن أشخاص محددين). نهج آخر هو السماح فقط بطلبات البحث المجمعة ، على سبيل المثال ، بمتوسط. لسوء الحظ ، نحن نعلم الآن بالفعل أن أيا من الأساليب لا يوفر حماية الخصوصية اللازمة. البيانات المجهولة الهوية هي هدف الهجمات التي تنشئ روابط مع قواعد البيانات الأخرى. التجميع يحمي الخصوصية فقط عندما يكون حجم المجموعة التي تم أخذ عينات منها هوكبيرة بما يكفي. ولكن حتى في مثل هذه الحالات ، فإن الهجمات الناجحة ممكنة [1 ، 2 ، 3 ، 4].
الخصوصية التفاضلية
الخصوصية التفاضلية [5 ، 6] هي تعريف رياضي لمفهوم "التمتع بالخصوصية". إنها ليست عملية محددة ، بل هي خاصية يمكن أن تمتلكها العملية. على سبيل المثال ، يمكنك حساب (إثبات) أن عملية معينة تفي بمبادئ الخصوصية التفاضلية.
ببساطة ، لكل شخص يتم تضمين بياناته في مجموعة البيانات التي يتم تحليلها ، تضمن الخصوصية التفاضلية أن نتيجة تحليل الخصوصية التفاضلي ستكون غير قابلة للتمييز تقريبًا ، بغض النظر عما إذا كانت بياناتك موجودة في مجموعة البيانات أم لا . غالبًا ما يُشار إلى تحليل الخصوصية التفاضلي على أنه آلية ، وسنشير إليه على أنه...

الشكل 1: تمثيل تخطيطي للخصوصية التفاضلية.
يظهر مبدأ الخصوصية التفاضلية في الشكل 1. يتم حساب الإجابة أ بدون بيانات جو ، والإجابة ب ببياناته. ويقال إن كلا الجوابين لا يمكن تمييزهما. أي أن من ينظر إلى النتائج لن يكون قادرًا على معرفة الحالة التي تم فيها استخدام بيانات Joe ، وفي أي حالة لم يتم ذلك.
نحن نتحكم في مستوى الخصوصية المطلوب من خلال تغيير معلمة الخصوصية ε ، والتي تسمى أيضًا فقدان الخصوصية أو ميزانية الخصوصية. كلما كانت قيمة ε أصغر ، كانت النتائج أقل قابلية للتمييز ، وكلما كانت بيانات الأفراد أكثر أمانًا.

الشكل 2: التعريف الرسمي للخصوصية التفاضلية.
غالبًا ما يمكننا الرد على استعلام بخصوصية تفاضلية عن طريق إضافة ضوضاء عشوائية إلى الاستجابة. تكمن الصعوبة في تحديد مكان وكمية الضوضاء التي يجب إضافتها بالضبط. تعد آلية لابلاس من أكثر آليات الضوضاء شيوعًا [5 ، 7].
تتطلب طلبات الخصوصية المتزايدة مزيدًا من الضوضاء لتلبية قيمة إبسيلون محددة للخصوصية التفاضلية. ويمكن أن تقلل هذه الضوضاء الإضافية من فائدة النتائج التي يتم الحصول عليها. في المقالات المستقبلية ، سنخوض في مزيد من التفاصيل حول الخصوصية والمفاضلة بين الخصوصية والمنفعة.
فوائد الخصوصية التفاضلية
الخصوصية التفاضلية لها العديد من المزايا الهامة مقارنة بالتقنيات السابقة.
- , , ( ) .
- , .
- : , . , . , .
بسبب هذه المزايا ، يُفضل تطبيق أساليب الخصوصية التفاضلية عمليًا على بعض الطرق الأخرى. الوجه الآخر للعملة هو أن هذه المنهجية جديدة تمامًا ، وليس من السهل العثور على أدوات ومعايير ومقاربات مثبتة خارج مجتمع البحث الأكاديمي. ومع ذلك ، نعتقد أن الوضع سيتحسن في المستقبل القريب بسبب الطلب المتزايد على حلول موثوقة وبسيطة للحفاظ على خصوصية البيانات.
ماذا بعد؟
الاشتراك للحصول على بلوق، وقريبا جدا سوف نقوم بنشر ترجمة المقال القادم، الذي يحكي عن نماذج التهديد التي يجب مراعاتها عند بناء نظم لخصوصية تفاضلية، وكذلك الحديث عن الخلافات بين المركزية و المحلية نماذج من خصوصية تفاضلية.
المصادر
[1] جارفينكل وسيمسون وجون إم أبود وكريستيان مارتنديل. "فهم هجمات إعادة بناء قاعدة البيانات على البيانات العامة." اتصالات من ACM 62.3 (2019): 46-53.
[2] جادوتي ، أندريا ، وآخرون. "عندما تكون الإشارة في الضجيج: استغلال الضوضاء اللزجة في diffix." ندوة USENIX الأمنية الثامنة والعشرون (USENIX Security 19). 2019.
[3] دينور ، إيريت ، وكوبي نسيم. "الكشف عن المعلومات مع الحفاظ على الخصوصية." وقائع الندوة الثانية والعشرين ACM SIGMOD-SIGACT-SIGART حول مبادئ أنظمة قواعد البيانات. 2003.
[4] سويني ، لاتانيا. "غالبًا ما تحدد الخصائص الديمغرافية البسيطة الأشخاص بشكل فريد." الصحة (سان فرانسيسكو) 671 (2000): 1-34.
[5] Dwork ، سينثيا وآخرون. "معايرة الضوضاء إلى الحساسية في تحليل البيانات الخاصة." مؤتمر نظرية التشفير. سبرينغر ، برلين ، هايدلبرغ ، 2006.
[6] وود ، الكسندرا ، ميكا ألتمان ، آرون بيمبنيك ، مارك بون ، ماركو جابوردى ، جيمس هوناكر ، كوبي نسيم ، ديفيد ر. أوبراين ، توماس ستينكي ، وسليل فادان. « الخصوصية التفاضلية: كتاب تمهيدي لجمهور غير تقني. »فاند. J. Ent. & تقنية.
L.21 (2018): 209. [7] Dwork ، سينثيا ، وآرون روث. "الأسس الخوارزمية للخصوصية التفاضلية." أسس واتجاهات في علوم الكمبيوتر النظرية 9 ، لا. 3-4 (2014): 211-407.