كيفية إجراء بحث عن الوثائق المتراكمة على مدى 100 عام تقريبًا. تجربة NPO Energomash و ABBYY

يعرف الكثير من الناس أن ABBYY تعالج وتستخرج البيانات من مستندات مختلفة. لكن منتجاتنا لها إمكانيات أخرى مثيرة للاهتمام أيضًا. على وجه الخصوص ، باستخدام حل ABBYY Intelligent Search ، يمكنك البحث بسرعة وسهولة عن معلومات مفيدة في المستندات الإلكترونية من أنظمة الشركة. يتم استخدام هذا بالفعل من قبل الشركات الروسية الكبيرة ، على سبيل المثال ، NPO Energomash ، الشركة المصنعة لمحركات الصواريخ .



تبين الممارسة طويلة المدى أن الوقت الذي يستغرقه طرح محركات فضائية في السوق من بداية العمل هو من 5 إلى 7 سنوات. في الوقت نفسه ، من أجل الحفاظ على المكانة الرائدة ، من الضروري تقليل وقت التطوير والإنتاج إلى 3-4 سنوات. بالإضافة إلى ذلك ، أدى اشتداد المنافسة إلى الحاجة إلى تقليل تكلفة المحركات المصنعة بنسبة 30-50٪ بشكل كبير.



لا يمكن تحقيق هذه المؤشرات دون إدخال التقنيات الرقمية الحديثة. تستخدم الشركات الأكثر تقدمًا أساليب مبتكرة ليس فقط في جميع مراحل الإنتاج ، ولكن أيضًا في جميع مراحل دورة حياة منتجاتها. كلما ازدادت الشركات الرقمية ، أصبح السؤال أكثر حدة: كيف تستخدم البيانات الضخمة لتحقيق أقصى فائدة لنفسها؟



أكثر من 90 عامًا من العمل جمعت NPO Energomash حجمًا من المستندات (الورقية والإلكترونية على حد سواء) يبلغ عمره قرنًا من الزمان مع معلومات قيمة حول تطورات المختبرين والمصممين. يتم تخزين معظم المستندات بالفعل في أنظمة معلومات الشركة (IS). وفقًا لبحث IDCفي المتوسط ​​، يستخدم موظفو المؤسسات الكبيرة 5-6 أنظمة معلومات داخلية. في المتوسط ​​، يقضي حوالي 36٪ من الوقت في البحث عن المعلومات - في شركة كبيرة يستغرق آلاف ساعات العمل يوميًا.



سنخبرك اليوم كيف ساعدنا NPO Energomash في إنشاء نظام استرجاع المعلومات الذكي للشركات (KIIPS) استنادًا إلى ABBYY Intelligent Search - وهو ملائم وسريع مثل محركات البحث الشائعة.



ماذا يفعل Energomash وما علاقة Gagarin به



منذ يوم تأسيسها ، في 15 مايو 1929 ، صنعت Energomash أكثر من 12 ألف محرك لمركبات الإطلاق ليس فقط في روسيا ، ولكن أيضًا في الخارج. تم استخدام هذه "المحركات" لإطلاق أول قمر صناعي أرضي ، وذهب إلى الفضاء "فوستوك -1" على متنه رائد الفضاء الأول يوري غاغارين ، وحلّق بطائرة الفضاء "بوران" ، وما زالت مركبات الإطلاق الأمريكية أطلس وأنتاريس قيد الإطلاق. على سبيل المثال ، 26 مارس 2020 ، أدخل صاروخ أطلس V ، المجهز بمحركات روسية ، نظام اتصالات ساتليًا استراتيجيًا عسكريًا أمريكيًا إلى المدار. في النصف الأول من عام 2020، محركات وضعتها ENERGOMASH بنجاح عملت في 11 الأجسام الفضائية، التي هي 24.4٪ من جميع عمليات الإطلاق على مستوى العالم.



تعد Energomash اليوم جزءًا من شركة Roscosmos الحكومية وترأس الهيكل المتكامل للدفع الصاروخي ، والذي يضم الشركات الرائدة في هذه الصناعة.



في السنوات الأخيرة ، عملت الشركة بنشاط على تقديم حلول تكنولوجيا المعلومات واسعة النطاق التي تستخدم على نطاق واسع تحليل البيانات والتعلم الآلي وجميع إمكانات تقنيات معالجة اللغة الطبيعية. حددت الشركة هدفًا استراتيجيًا للتصنيع الرقمي بالكامل بحلول عام 2021.



على سبيل المثال ، في إطار مشروع " التصميم الرقمي وتقنيات الإنتاج»كانت إحدى المهام الرئيسية هي تنفيذ نظام PLM (نظام إدارة دورة حياة المنتج المؤتمت). هدفها هو ضمان إنشاء وثائق التصميم الإلكترونية (ECD) والنمذجة على أساسها تشغيل المحرك وعمليات العمل الأخرى في الوحدات التكنولوجية والإنتاجية لـ NPO Energomash والاستعداد لتبادل ECD بين مؤسسات الصناعة.



لماذا كان من الضروري البحث في عالم Energomash



لتحقيق الهدف الاستراتيجي المتمثل في إنشاء الإنتاج الرقمي ، تقوم الشركة بتنفيذ مجموعة كاملة من المشاريع القائمة على العمل بكميات كبيرة من البيانات. واحد منهم هو مشروع لإنشاء نظام استرجاع المعلومات الذكية للشركات.



الهدف من المشروع هو الحفاظ على المعرفة والكفاءة للمؤسسة وزيادتها ووضعها في خدمة الإنتاج الرقمي ، والتي تراكمت على مدى عقود من العمل.



في إطار المشروع ، تم حل مهمتين:



1). اجعل من السهل على المصممين والمهندسين العثور على معلومات مفيدة في مستندات من السنوات الماضية.



تم إنشاء العديد من التطورات في الاتحاد السوفياتي ، ولكن لم يتم تنفيذ جميعها ، لأن الاستثمارات لم تكن مخصصة دائمًا لها أو أن مستوى تطوير التكنولوجيا لم يسمح بإكمال الخطة. في عصرنا ، يمكن أن تجد مثل هذه التطورات حياة ثانية. للقيام بذلك ، تطلب الشركة من المصممين ذوي الخبرة مشاركة أعمالهم البحثية والرسومات التي لا تزال على الورق. سيساعد هذا في رقمنة البيانات القيمة والحفاظ عليها لسنوات عديدة ونقل المعرفة إلى جيل الشباب من العلماء والمهندسين.



بالطبع ، كان البحث عن المستندات في الأنظمة الإلكترونية موجودًا في Energomash من قبل ، ولكن لم يكن من السهل على الموظفين العثور على المعلومات التي يحتاجونها للعمل.



أسفل المفسد ، سنخبرك بمزيد من التفصيل كيف تم ترتيب هذه العملية مسبقًا.
7 . , - , , - – , , . , , :



  • ;
  • ;
  • , , .


, , , , . , , : . , .



:



  • . , , ;
  • , , .


. « » () , . , « », , , , , , . , , . - , «».



, , , , , .



2). تبسيط وتسريع البحث عن البيانات لوحدات الخدمة: المحاسبين والمحامين وغيرهم من المتخصصين الذين يؤلفون ويحررون وينسقون المستندات في أنظمة المحاسبة ويتبادلون المعلومات.



أرادت الشركة أن يكون الموظفون قادرين على جمع وتحليل المعلومات المالية والتصنيعية وغيرها من المعلومات ذات الصلة التي يحتاجون إليها لإنجاز وظائفهم من أنظمة الشركات المختلفة عن طريق إدخال الاستعلامات في سلسلة بحث واحدة. كان من الضروري إنشاء نقطة وصول واحدة إلى البيانات المخزنة في أنظمة معلومات الشركة ، مع توفير وصول محدد إلى المعلومات ، اعتمادًا على سلطة المستخدم في كل نظام.



لماذا هو مهم؟ في 7 سنوات ، سيتم تخزين أكثر من نصف جميع البيانات في العالم في أنظمة الشركات ، يتبع ذلكتقرير عمر بيانات Seagate و IDC . للحصول على المعلومات الضرورية دائمًا ، تحتاج إلى العثور عليها بسرعة. وبالتالي ، وفقًا لدراسة أجرتها IDC و ABBYY بعنوان "سوق الذكاء الاصطناعي في روسيا" ، يرى ممثلو تكنولوجيا المعلومات (48٪) ووحدات الأعمال (33٪) فرصًا كبيرة في استخدام الذكاء الاصطناعي للبحث عن الشركات وتصنيف المستندات في العامين المقبلين.



للتعامل مع هذه المهام ، احتاجت الشركة إلى بحث ملائم وشامل عبر العديد من عناوين IP. نظرت Energomash في العديد من محركات البحث ، لكنها قررت في النهاية تجربة ABBYY Intelligent Search. تأثر الاختيار ، أولاً ، بتوافر تقنيات معالجة اللغة الطبيعية التي تسمح بالعثور على المستندات ذات الصلة باستعلامات البحث حسب المعنى ، وليس بالكلمات الرئيسية فقط. ثانيًا ، القدرة على التفريق بين حقوق وصول المستخدم إلى نتائج البحث. سنخبرك المزيد عن هذا بعد قليل ، والآن - كيف بدأنا.



أول "خروج" للبحث



قررت Energomash التحقق من عمل البحث الذكي على 3 آلاف وثيقة من قاعدة بيانات المعلومات (IDB) لأعمال البحث والتصميم والحساب.

لهذا الغرض ، طورت ABBYY نموذجًا أوليًا للموصل إلى IDB ، والذي ربط ABBYY Intelligent Search بقاعدة بيانات المستندات. الموصل هو برنامج جافا يستخدم لتحميل المستندات في فهرس. كيف تعمل؟



1). أولاً نقوم ببناء فهرس بحث عن نص كامل



فهرس النص الكامل هو ، بشكل تقريبي ، قائمة بجميع الكلمات في المستند والبيانات الوصفية الخاصة به (رقم المستند ، العنوان ، تاريخ الإنشاء). يتم إنشاء فهرس النص الكامل بسرعة كبيرة ويسمح لك بالبحث عن المعلومات التي تحتاجها بالكلمات الرئيسية - تلك التي تظهر في النص.



صورة





لإنشاء فهرس نص كامل ، أنت بحاجة إلى موصل. يربط حل البحث بنظام معلومات محدد ويجمع ("فهارس") خصائص كل مستند ، على سبيل المثال:



  • اسم IP حيث يتم تخزين الملف ،
  • تاريخ آخر تعديل للوثيقة ،
  • نسخة المستند في المصدر ،
  • تنسيق المستند
  • رموز اللغات التي يتم بها إعداد المستند ،
  • المسار إلى المستند في IS ،
  • تاريخ آخر فهرسة للمستند
  • وإلخ.


ستساعد هذه الخصائص في المستقبل ليس فقط في تسريع البحث عن مستند ، ولكن أيضًا تبسيط منطق العمل معهم للموصل. على وجه الخصوص ، يقوم الموصل بتحليل إصدارات مختلفة من نفس المستند من أجل وضع الإصدار الأخير فقط في الفهرس. كما يتلقى الموصل معلومات حول المستندات التي تمت إزالتها من المصدر.



يساعد الزاحف (روبوت البحث) المدمج في البحث الذكي ABBYY في إنشاء فهرس بحث. يقوم باستقصاء الموصلات على فترات منتظمة ، ويتحقق مما إذا كانت المستندات الجديدة قد ظهرت في IS ، وما هي المستندات التي تم حذفها ، وكيف تغيرت حقوق الوصول إلى المستندات. وفقًا لذلك ، يتم تحديث الفهرس بتردد معين.



لا تتم فهرسة المستندات النصية فحسب ، بل يتم أيضًا فهرسة ملفات الرسوم. على سبيل المثال ، يمكن مسح نسخ ضوئية من الرسومات بتنسيق JPEG أو PDF بدون طبقة نصية. عند العمل مع الصور ، يتعرف حل البحث أولاً تلقائيًا على النص ويضيفه إلى فهرس البحث.



بالإضافة إلى ذلك ، يمكن للنظام التعامل مع ملفات أرشيف ZIP و RAR و TAR - بشرط ألا تكون محمية بكلمة مرور. يتم تفريغ المحفوظات ، ويتم التعرف على الصور منها ، ويتم فهرسة النص.







يحتوي فهرس البحث على مجموعة عشوائية من الحقول ، والتي يمكن استخدامها أيضًا لتصفية نتائج البحث (مؤلف المستند ، وتاريخ الإنشاء ، ورقم المنتج ، وما إلى ذلك).



2). ثم نطبق تقنيات معالجة اللغة الطبيعية



في الخلفية ، يتم إثراء فهرس البحث بالمعلومات الدلالية . للقيام بذلك ، استخدمنا الأنطولوجيا الدلالية واللغوية التي لدينا بالفعل - بعبارة أخرى ، أوصاف الأشياء وظواهر العالم الحقيقي. لقد تحدثنا بالفعل عن كيفية خلق هذا النموذج على حبري هنا و هنا .



باستخدام التعلم الآلي وتقنيات معالجة اللغة الطبيعية ، تحلل كل وثيقة بنية الجمل والتركيب والمعاني الدلالية حرفيًا لكل كلمة في النص. هذه المعلومات تكمل فهرس البحث وتجعل من الممكن البحث ليس بالكلمات المفتاحية ، ولكن بالمرادفات ، المرادفاتوغيرها من التركيبات التي تنقل نفس المعنى ولكن بتعبيرات مختلفة. وبالتالي ، فإن محرك البحث يبحث بدقة أكبر عن المعلومات في مصادر الشركة.







يكون هذا مناسبًا جدًا إذا قام أحد نظرائنا بصياغة استعلام بحث بكلماته الخاصة ، وأراد العثور على المستندات قبل 40 عامًا ، حيث ربما تم استدعاء الموضوع الذي يحتاجه بمصطلحات أخرى. على سبيل المثال ، للاستعلام "عيب الإطار" ، سيحدد النظام جميع التعبيرات الدلالية الممكنة المرتبطة بهذا المصطلح. قد تتضمن النتائج " انحراف " أو " ثقب " أو " شباك " أو " حقيقة انتهاك التوثيق التكنولوجي للتصميم ".



إليك مثال آخر: ستعرض



صورة

نتائج البحث عن " تقلبات الدفع " أيضًا نصوصًا تحتوي على عبارة " تباين الدفع ".



تساعد تقنيات معالجة اللغة الطبيعية أيضًا محرك البحث في تصحيح الأخطاء الإملائية تلقائيًا في نص الاستعلام. على سبيل المثال ، سوف يفهم النظام أن هناك أخطاء في كلمة "تحمل" وسيبحث على الفور عن المستندات التي تشير إلى "تحمل".



نتائج الإطلاق الأول



لتقييم عمل محرك بحث ذكي ، أكمل متخصصو Energomash حوالي 30 استعلامًا عن مستندات IDB باستخدام محرك البحث المدمج في IDB وباستخدام ABBYY Intelligent Search . ثم قارنوا نتائج البحث: ما هي المستندات التي تم العثور عليها بواسطة كلا النظامين ، وما هي العبارات التي تم تمييزها في المقتطفات. نتيجة لذلك ، لم يُرجع البحث المدمج في البنك الإسلامي للتنمية نتائج لبعض الاستعلامات ، لأنه قادر على اكتشاف الكلمات الرئيسية فقط ، وليس الكلمات ذات الصلة. قام ABBYY Intelligent Search بإرجاع المستندات ذات الصلة بجميع الاستعلامات.



بالنسبة للسرعة ، مع تلبية متطلبات منصة الأجهزةلم تتجاوز استجابة البحث جزء من الثانية كما في محركات البحث الشائعة. استغرقت الاستعلامات الأكثر تعقيدًا ما يصل إلى 3 ثوانٍ كحد أقصى.



بعد مشروع تجريبي ناجح ، قررت Energomash استخدام حل ABBYY Intelligent Search في قلب نظام البحث الذكي عن المعلومات للشركات.



لنذهب أبعد من ذلك



ربطت Energomash 7 مصادر مؤسسية بالبحث: نظام إدارة المستندات الإلكتروني LanDocs ، وتخزين الملفات ، و IDB ، ونظام دعم دورة حياة منتج TeamCenter ، ونظام إدارة موارد Galaktika ERP و AMM ، ونظام معلومات إدارة المشروع. تم إنشاء فهرس منفصل لكل نظام معلومات. هذا يجعل محرك البحث مرنًا في الإدارة ويجعل من الممكن إعادة بناء الفهرس لكل نظام على حدة ، ووضع شروط جديدة. يتم تنظيم الوصول إلى نظام البحث عن الشركات من خلال البوابة الداخلية للشركة على الصفحة الرئيسية. تم تنفيذ المشروع بالاشتراك مع شريك ، LANIT ، أكبر مجموعة متنوعة من شركات تكنولوجيا المعلومات الروسية.



الوحدات الرئيسية لنظام البحث المؤسسي:



  • الصفحة الرئيسية لاستعلامات البحث ونتائج البحث ؛
  • لوحة الإدارة (إعداد الفهارس والمرشحات والبيانات الوصفية لكل نظام معلومات) ؛
  • إحصائيات عن عدد الوثائق (يعرض عدد الوثائق في الفهرس لكل نظام معلومات للفترة).


تم وضع نظام البحث عن الشركات قيد التشغيل التجاري منذ 1 يوليو 2020. في وقت الإطلاق ، تمت فهرسة 500 ألف وثيقة. ومن المتوقع أنه بحلول نهاية العام ، ومع الاستخدام النشط للنظام وربط مصادر المعلومات الجديدة ، سيصل عدد الوثائق في الفهرس إلى أكثر من مليون.



كيفية ضمان السلامة



مثل أي شركة كبيرة ، تمتلك NPO Energomash مستندات غير مخصصة للوصول من قبل جميع الموظفين. كان المتطلب الأمني ​​الرئيسي عند إطلاق المشروع هو توفير الوصول إلى المستندات وفقًا للنموذج الذي يحتذى به لكل نظام معلومات. لهذا تم القيام به:



1). التخزين المحلي للمعلومات



يتم نشر حل بحث ABBYY على خادم منفصل في الدائرة الداخلية لـ NPO Energomash. يتم تخزين جميع فهارس البحث ونسخها الاحتياطية في حالة فقدها وإعداداتها هناك.



2). نموذج يحتذى به في نظام المعلومات



من أجل الأمان ، يتم تنظيم التمايز بين حقوق وصول المستخدم إلى نتائج البحث لكل نظام معلومات. جميع أنظمة الشركات المتصلة بـ ABBYY Intelligent Search تدعم ترخيص المجال. يقوم المستخدم بتسجيل الدخول إلى النظام تحت حساب المجال ، وتنفيذ طلب ، ورؤية المستند في نتائج البحث ، مع مراعاة إعدادات معاينة المستند لكل نظام معلومات ومستوى الوصول الذي تم إجراؤه مباشرة في نظام بحث الشركة نفسه ، مع مراعاة الوصول إلى المستند في نظام المعلومات المصدر نفسه ... إذا كان للمستخدم الحق في التعامل مع المستند في النظام المصدر ، فيمكن عندئذٍ الانتقال إلى المستند الأصلي مباشرةً من نظام بحث الشركة من خلال النقر على الرابط.



خطط للمستقبل



وفقًا لفكرة Energomash ، فإن استرجاع المعلومات الذكي سيساعد على تبسيط وتسريع العمليات التجارية في المؤسسة ، على سبيل المثال ، الإسراع بشكل غير مباشر في دخول منتجات جديدة إلى السوق ، وتحسين جودتها وتقليل التكلفة. يمكن استخدام الأفكار والمشاريع التي تم حفظها في المستندات القديمة في التطورات الحديثة للمؤسسة. على سبيل المثال ، ابتكر شيئًا جديدًا تمامًا على أساس التطورات وابق في صدارة المنافسين في السوق العالمية.



دعونا نذكر أيضًا خططنا للمستقبل:



  • في المستقبل ، من المخطط توصيل مصادر المعلومات للمؤسسات الأخرى التي تشكل جزءًا من هيكل Energomash بنظام البحث المشترك. في هذه الحالة ، يمكن أن يتوسع فهرس البحث إلى مليوني مستند.
  • , , – . , - . , , : , - , . , , . , , .
  • تخطط Energomash أيضًا لاستكشاف إمكانية إنشاء تقارير تحليلية معقدة باستخدام وظيفة البحث.





برأيك ، ما هي المهام الأخرى التي يمكنك حلها بمساعدة بحث الشركة؟



All Articles