ثلاثة حيتان من التحليل اللغوي ، والتي بدونها لا يمكن لـ InfoWatch Traffic Monitor العمل

صورة



مرحبا! سنتحدث اليوم عن كيفية دمج اللغويات في عمل نظام DLP وكيف يساعدنا في حماية البيانات المهمة من الهجمات الضارة.



في الآونة الأخيرة ، نمت بشكل كبير حاجة الشركات إلى حماية البيانات من تسرب المعلومات السرية. أدى انتقال الموظفين إلى وضع العمل عن بُعد إلى زيادة كبيرة في الهجمات الإلكترونية والجرائم في مجال أمن المعلومات: وفقًا لتقارير المحللين ، في الثلث الأول من عام 2020 ، ارتفع عدد تسريبات المعلومات السرية من الشركات الروسية بنسبة 38٪ ، ويستمر هذا الاتجاه في التطور.



كقاعدة عامة ، تتعرض المستندات القانونية والأوراق المالية والبيانات الشخصية للموظفين والعملاء وما إلى ذلك للهجوم. لحماية البيانات السرية من المتطفلين ، تقوم الشركات بتثبيت أنظمة DLP (منع فقدان البيانات) لمنع تسرب المعلومات.



تم دمج تقنية التحليل اللغوي بعمق في عمل العديد من أنظمة DLP ، نظرًا لأن تحليل المحتوى هو أساس ثابت لتصفية حركة المرور من أجل اكتشاف الانتهاكات ، وتحدد جودة التقنية إلى حد كبير جودة المنتج نفسه.



التحليل اللغوي: كيف يعمل



تسمح تقنية التحليل اللغوي بتحديد الموضوع تلقائيًا وما إذا كانت المعلومات التي تم تحليلها سرية ، بناءً على المصطلحات ومجموعاتها التي تمت مواجهتها فيها .



بادئ ذي بدء ، نجري تحليلًا أوليًا للوثائق: بعد أن تحدد شركة العميل حجم ومحتوى المستندات السرية والتي تحتاج إلى الحماية (من المستحسن أن يكون هناك ما لا يقل عن عشر عينات من المستندات لكل فئة من فئات المعلومات المحمية). في حالة عدم فهم العميل للمستندات التي يجب عليه تقديمها ، يمكنك التركيز على قائمة المعلومات المقيدة المعتمدة في مؤسسة العميل) ، يسلط اللغوي الضوء على المصطلحات- الكلمات أو العبارات المميزة لصناعة معينة وتحديد خصوصيات النص. من المهم للغاية هنا العثور على المصطلحات في كثير من الأحيان قدر الإمكان في نصوص المستندات في صناعة ما ونادرًا ما يتم العثور عليها في صناعة أخرى (على سبيل المثال ، بالنسبة للقطاع المصرفي ، يمكن أن تكون المصطلحات النموذجية "الرصيد النقدي" أو "خدمات التسوية والنقد" أو "الإيداع").



- علاوة على ذلك ، يتم تصنيف المصطلحات . عدد الفئات ليس حتميًا ، ومع ذلك ، فكلما تم اختيار المزيد من الفئات ، سيكون التصنيف أكثر تباينًا. تجمع الفئات المصطلحات في مجموعات مفاهيمية عامة للمساعدة في تنظيم المعلومات بشكل أكثر وضوحًا.



عندما يتم تصنيف مصطلح ما ، يستطيع اللغوي تعريفه على أنه "خاصية". تتضمن المصطلحات المميزة المصطلحات التي توجد فقط في الفئة التي تم إدخالها فيها ، ولا توجد في أي من الفئات الأخرى. إذا تم العثور على مصطلح واحد من هذا القبيل في النص المعترض ، فإن هذا النص ينتمي تلقائيًا إلى الفئة التي يقع فيها هذا المصطلح.



بشكل عام ، يمكن أن يكون هناك من ثلاثة مصطلحات في فئة (الحد الأدنى لعدد المصطلحات غير المميزة ، عند الكشف عن النظام الذي يكتشف النص على أنه سري) إلى عدة آلاف ، اعتمادًا على تفاصيل الفئة. إذا كانت هذه فئة تتكون فقط من مصطلحات مميزة (على سبيل المثال ، "المخدرات" ، "الإرهاب" ، وما إلى ذلك) ، فيمكن أن يكون هناك عدة آلاف من المصطلحات في الفئة. إذا كانت الفئة تتكون من مصطلحات غير مميزة (كقاعدة عامة ، فهذه فئات تستند إلى وثائق الشركة - الموظفون والمحاسبة والمعلومات القانونية) ، فمن المستحسن تحديد عدد المصطلحات إلى بضع عشرات (من ثلاثة إلى خمسين).



صورة



- ثم يقوم اللغوي بإدخال الفئات في قاعدة بيانات تصفية المحتوى (BCF)، على أساسه يتم التحليل اللغوي. قاعدة تصفية المحتوى عبارة عن قاموس منظم بشكل هرمي يتضمن قائمة من الفئات والمصطلحات.



يعمل BKF كمصنف على أساسه يحدث التوزيع المواضيعي للمعلومات التي تم تحليلها.



عند إضافة المصطلحات غير المميزة إلى معامل التركيز الأحيائي ، يتم تعيين وزن لها- رقم من 1 إلى 10 (افتراضيًا ، عند إنشاء فئة ، يتم تعيين الوزن على 5). يجب أن تكون قيم الأوزان للمصطلحات في الفئة متناسبة مع نسبة تكرار استخدام المصطلحات في النص ، وهي على وجه التحديد ترددات استخدام المصطلحات المتعلقة ببعضها البعض - لا يهم ترددها بالنسبة إلى تلك الكلمات في النص غير المدرجة في BKF ، على سبيل المثال ، إذا كانت في إحدى الفئات سنقدم المصطلحات "glokaya" و "kuzdra" و "shtekto" ونضع لها نفس الأوزان (لا يهم إذا كان وزنها 10 أو 1) ، فسيتم اكتشاف النص "Glokaya kuzdra shteko على الجانبين وتجعيد الشعر bokrenka" بالملاءمة 1. إذا في النص المُعاد توجيهه ، ستظهر الكلمتان "glokaya" و "kuzdra" 10 مرات ، و "shteko" - 100 مرة ، ستنخفض ملاءمة نص الفئة مع الأوزان المتساوية لجميع المصطلحات وستكون تقريبًا 0.69.في هذه الحالة ، من المعقول تحديد وزن المصطلحين "gloka" و "kuzdra" على 1 ، ومصطلح "shteko" - 10. ثم تصبح أهمية النص المرسل 1. ومن الواضح أنه ليس من الممكن دائمًا مراعاة مثل هذه النسبة الصارمة ، ولكن يجب على المرء أن يسعى لتحقيقها.



لتحديد مدى صلة النص بفئة معينة ، يتم استخدام أحد نماذج البحث التقليدية - نموذج متجه. هذه طريقة شائعة إلى حد ما للعمل مع كائنات لغوية مختلفة.



صورة



يمكن وصف الفكرة الرئيسية على النحو التالي: هناك مساحة معينة محددة بمصطلحات مختلفة (في حالتنا ، هذا مستند اعترضه النظام يحتوي على معلومات نصية). تم إنشاء المتجه للمستند الذي تم اعتراضه ، وستكون قيمة كل إحداثي للمتجه هي عدد مرات استخدام المصطلح المقابل في هذا المستند. يتم إنشاء متجه مماثل لكل فئة BKF. أبعاد المتجهات هي نفسها لجميع النصوص التي تم تحليلها وتساوي عدد الكلمات في BKF.



ثم يمكن حساب قيمة المتجهات ذات الصلة على أنها جيب التمام للزاوية بينهما ، باستخدام المنتج النقطي والمعيار: يختلف



صورة



تشابه جيب التمام للوثيقة التي تم اعتراضها والمصطلحات من BKF في النطاق من 0 إلى 1: كلما كانت هذه القيمة أكبر ، كلما كان المستند أكثر تشابهًا مع فئة أو أخرى.



تتمتع تقنية التحليل اللغوي القائمة على قواعد بيانات تصفية المحتوى بعدد من المزايا مقارنة بتقنيات تصنيف النص الأخرى (والتي يستخدمها أيضًا لغويو InfoWatch لتحليل المستندات ، ولكن المزيد عنها لاحقًا).



السمة المميزة الرئيسية لـ BKF هي "مرونتها" والقدرة على تخصيص القواعد لاحتياجات شركة معينة. يقوم اللغويون يدويًا بتجديد محتوى BKF وتعديله ، وبالتالي ضبط التكنولوجيا لكل عميل.



تتيح لك تقنية التحليل اللغوي المستندة إلى BKF العثور على المصطلحات والعبارات الضرورية ، مع مراعاة الترجمة الصوتية ووجود الأخطاء المطبعية والصرف: على سبيل المثال ، مع مصطلح "عقد النقل" ، سيتفاعل النظام مع كل من "عقد النقل" و "عقد النقل" ، أي ه. لجميع التوليفات الممكنة لانحراف هذا المصطلح مع الأخطاء المطبعية. يتم البحث على أساس القواميس المورفولوجية (بالنسبة للروسية ، فهو قاموس AAZaliznyak للغات الأجنبية - قواميس تم إنشاؤها بشكل منفصل). لا يصحح كاشف الأخطاء المطبعية المصطلحات الموجودة في القاموس الصرفي ، مما يساعد على تجنب الرد على الكلمات ، مسافة Domerau - Levenshtein (1) التي تساوي واحدًا.



يحتوي InfoWatch على قاعدة بيانات كبيرة من قواميس الصناعة. لقد قمنا بتطوير BKF لمجموعة متنوعة من مجالات الأعمال - من الفضاء إلى الطاقة ، ولدينا أيضًا قواعد ضيقة (على سبيل المثال ، في الإسلام أو تحتوي على شفرة المصدر لـ C ++ ، و Java ، وما إلى ذلك) ، المصممة لأغراض محددة للشركات الفردية. تجدر الإشارة أيضًا إلى أنه بالإضافة إلى الروسية ، لدينا 95 BKFs بـ 33 لغة أجنبية ، مع مراعاة دعم التشكل للعديد منها.



لغوي تلقائي: حماية سريعة للمستندات القياسية



كقاعدة عامة ، لا يختلف سير العمل في شركة فردية في التباين القوي ؛ في كل قسم ، يتم استخدام المستندات القياسية المتشابهة في الموضوع والمحتوى المعجمي.



لحماية وتصنيف مثل هذه الوثائق في "ترسانة" InfoWatch هناك أداة أخرى لتحليل البيانات النصية - "Autolinguist".



كما يوحي الاسم ، تتيح لك التقنية تصنيف المستندات النموذجية تلقائيًا إلى فئات محددة مسبقًا دون اللجوء إلى التحليل اليدوي.



عادةً ما يكون تحليل المستندات في إطار إنشاء BKF عملاً طويلاً ومكثف الطاقة (في المتوسط ​​، يستغرق اللغوي من 2 إلى 5 أيام لإبراز المصطلحات وإنشاء الفئات والمزيد من العمل مع التخلص من الاستجابات السلبية الإيجابية والكاذبة الكاذبة) ، يمكن لعالم اللغة التلقائي تسريع عملية إعداد تصنيف النصوص بشكل كبير.



يستخدم المصنف مكتبة التعلم الآلي Liblinear ، على وجه الخصوص ، خوارزمية الانحدار اللوجستي (2) ، مما يجعل من الممكن الحصول على احتمال وجود مستند نصي ينتمي إلى فئة معينة.



يتمتع المستخدم بفرصة تخصيص عمل "اللغوي التلقائي" بنفسه: بعد تحميل مجموعة المستندات التدريبية مسبقًا وتدريب المصنف ، يمكن للمستخدم بعد ذلك إضافة فئات جديدة ، فضلاً عن ضبط محتوى قاعدة المستند.



كائنات النص: عندما لا تكون regex مشكلة ، بل هي حل



أداة قوية أخرى لتحليل واكتشاف المعلومات الضرورية هي كائنات النص - وهي تقنية تعتمد على استخدام التعبيرات العادية (والتي ، كما تعلم ، هي أداة مرنة ومريحة للغاية تسمح لك بتحديد أي معايير بحث تقريبًا) وتستخدم لحماية البيانات باستخدام خارجي ثابت تقديم ، على سبيل المثال ، أرقام بطاقات الائتمان وتفاصيل الحساب المصرفي وعناوين البريد الإلكتروني وما إلى ذلك.



صورة



يمكن أن يتضمن كائن النص نمطًا واحدًا أو أكثر من التعبيرات العادية أو السلاسل (كلمات أو عبارات ؛ في هذه الحالة ، سيتم إجراء البحث عن تطابق تام للكلمة مع السلسلة ، دون مراعاة خصائص التهجئة والصرف).



للتحقق من النص الموجود أو مجموعة من الأرقام والإعدادات ، مع مراعاة احتياجات العميل ، دون تغيير رمز المصدر للتكنولوجيا ، تتم كتابة وظائف التحقق بلغة Lua.



سأقدم مثالاً لوظيفة التحقق للكشف عن رموز البنوك الدولية في نظام SWIFT:



صورة



تزيل الوظيفة بادئة "SWIFT" ، وتتحقق من بقية النص وتعيده بدون فواصل.



بالإضافة إلى مجموعة من الكائنات النصية المثبتة مسبقًا (الروسية ، والبيلاروسية ، والكازاخستانية ، والفيتنامية ، والماليزية ، والعربية ، بالإضافة إلى عدد من العناصر الدولية التي تغطي البيانات من جميع مجالات الأعمال تقريبًا) ، يتمتع المستخدمون بفرصة إنشاء كائنات نصية خاصة بهم تكون فريدة من نوعها لعمل معين. على سبيل المثال ، سيكون من المهم لمؤسسة النقل التحكم في أعداد VIN للسيارات ، وبالنسبة للهيكل العسكري - رقم معرف الجندي.



صورة



أيها الأصدقاء ، من خلال هذه المقالة ، تعرفت على التعقيدات الرئيسية للتحليل اللغوي في نظام InfoWatch Traffic Monitor: قواعد بيانات تصفية المحتوى وأساسياتها - المصطلحات والفئات ؛ تقنية "Autolinguist" ، القادرة على تصنيف النصوص النموذجية والكائنات النصية المستخدمة لاكتشاف بيانات النموذج بشكل مستقل.



على الرغم من الكفاءة المثبتة للتقنيات والتطورات التي لدينا بالفعل ، فإننا نواصل التطوير بنشاط في التحليل الدلالي ، وتجديد العناصر النصية الموجودة وإنشاء BKF الجديدة بانتظام ، وكذلك توسيع نطاق التقنيات اللغوية. سأكتب بالتأكيد عن جميع الابتكارات "الرقائق" المثيرة للاهتمام في المستقبل.



الزملاء اللغويون ، علقوا ، اطرحوا أسئلة صعبة ، وألقوا روابط مفيدة وشاركوا تجربتك! لنجعل العالم مكانًا أفضل معًا!



المؤلف: فولوبرنسكايا فاليريافاليريا فولوب






1. , , , , .

2. , .



All Articles