كيف أنشأنا مكتب البيانات





مرحبًا ، أنا Ildar Raimanov وأنا رئيس قسم في BARS Group ، المسؤولة عن تطوير حلول BI في الشركة. نظرًا لوجود خبرة واسعة في العمل مع البيانات ، فضلاً عن امتلاك الخبرة الصناعية ، فقد قررنا محاولة تشكيل مركز كفاءة ، والذي يسمح لنا بمعالجة كميات كبيرة من البيانات ، وسيكون قادرًا على تقديم خدمة لتكوين المعرفة لطلبات موضوعية معينة للعملاء.



مكتب البياناتيتضمن عدة مكونات في وقت واحد - هذا تخزين متطور يتضمن كلاً من "بحيرة البيانات الضخمة" وخزانات معدة ، وعمليات لملء البيانات من أنظمة المصدر ، وآليات للتحقق من جودة البيانات ؛ فريق من علماء المنهجيات الذين يفهمون ما تتحدث عنه هذه الأرقام أو تلك وفقًا لخصائص الصناعة ، وبالطبع مجموعة من أدوات البرامج المختلفة ، وأهمها منصة ذكاء الأعمال Alpha BI التي طورتها BARS Group.



لجعل المعلومات أكثر قابلية للفهم ، سأحاول الكشف بلغة بسيطة عن المصطلحات الأساسية التي تم التأكيد عليها في النص.



إذا تحدثنا بمزيد من التفصيل عن الأساليب والخطوات ، فعندئذٍ في إطار مكتب البيانات حددنا التسلسل التالي:



1. تحليل مجال الموضوع - أبرز فريق من علماء المنهج ، الذي يصف مجال الموضوع ، الكيانات الرئيسية ، يعد نموذجًا منطقيًا للبيانات للتخزين الرئيسي .



من هم علماء المنهج ؟ هؤلاء هم في الأساس خبراء صناعة يفهمون جوهر البيانات. على سبيل المثال ، إذا كنا نتحدث عن التمويل ، فيمكن أن يكون هؤلاء محاسبين وممولين ، ولكن إذا كنا نتحدث عن الطب ، فهؤلاء هم الأطباء وغيرهم من العاملين الطبيين المؤهلين. فهمهم هو الذي يسمح لك ببناء نموذج بيانات منطقي.، أي مجموعة الكيانات التي سيتم تحليلها مع العلاقات - ما هي العلاقة التي يمكن أن تكون للكيان فيما يتعلق بالآخر.



2. بناءً على نموذج البيانات المنطقية ، يتم إعداد نموذج مادي معياري ، ويتم توصيل مهندسي البيانات . هنا ، بالطبع ، هناك حاجة لمتخصصي تكنولوجيا المعلومات ، لأنهم هم من يترجمون مجموعة من الكيانات إلى جداول ، ويخلقون المفاتيح والسمات والفهارس الخارجية الضرورية - أي أنهم يبنون فقط ما يسمى بالنموذج المادي .



3. يجري العمل على نموذج تدفق البيانات ، وإنشاء المصادر وخيارات التكامل. نموذج تدفق البياناتهي مجموعة من البيانات المرسلة بالقواعد الموصوفة: من أين وأين ، وتحت أي ظروف ، وبأي تردد.



4. كقاعدة عامة ، نظرًا لأننا نتحدث عن كمية كبيرة من البيانات ، فإن البيانات الواردة من المصادر في البداية تكون بتنسيق "كما هي" في مخزن البيانات المؤقت - الطبقة الأولى من "البيانات الأولية" . هنا ، كلا الهدفين هو تقليل وقت تحميل البيانات ، والهدف هو الحصول على مجموعة من البيانات الأولية من أجل الحفاظ على القدرة ، إذا لزم الأمر ، لفك سلسلة التحليل إلى القيمة الأولى.



5. يتم العمل على قضايا تحويل البياناتمن المخزن المؤقت إلى الطبقة الثانية - التخزين العادي ، وكذلك الأسئلة حول تكرار تحديث المعلومات وتخزينها في المخزن المؤقت ، يتم حل مشكلة التحديث المتزايد على الفور. كما يتم العمل على قضايا جودة البيانات والأساليب والأدوات. تحت جودة البيانات يعني الامتثال للمعلومات المطلوبة للمحتوى المنطقي. يبدأ كل شيء بعمليات تحقق بسيطة من التحكم في التنسيق المنطقي وينتهي بأنماط منهجية أكثر تعقيدًا.



6. يقوم علماء المنهج بتحليل حالات المستهلك ، وبناءً على ذلك ، يتم وصف مجموعات البيانات المحتملة .، أي مجموعات بيانات معدة خصيصًا للمساعدة في الإجابة على أسئلة معينة.

يقوم فريق تطوير BI بالفعل بتشكيل مجموعة من مجموعات البيانات ، وهي عبارة عن مستودع بيانات تحليلي - الطبقة الثالثة.



7. من الجدير بالذكر أنه بالتوازي يجري العمل على تشكيل مسرد البيانات (وصف منهجي مفصل) والتحديث المستمر لعلاقة كيانات المستودع مع هذا الوصف المنهجي الأكثر تفصيلاً.



8. مجموعة أدواتقد تختلف العملية الموضحة أعلاه اعتمادًا على المهام. تُستخدم منصة ذكاء الأعمال Alpha BI بشكل أساسي ، حيث يتم بناء طبقات التخزين على PostgreSQL على أساسها ويتم حل مهام ETL باستخدام النظام الأساسي نفسه.



9. يمر العمل المباشر مع واجهات العرض المعدة أيضًا عبر Alpha BI. تلقي الحاجة إلى اكتساب المعرفة - في البداية ، يقوم فريق المتخصصين في المنهجية بتحليل المهمة وفرضها على النموذج المنطقي الحالي ، ثم يقوم فريق مطوري ذكاء الأعمال ، بعد تلقيه إعدادًا موجهًا للموضوع ، بتنفيذ التحديدات الضرورية ، مكعبات OLAP ، لوحات المعلومات ، التقارير على أساس واجهات العرض. يحدث أن يتم تغيير الواجهة إلى حد ما ، أو يتم إنشاء واحدة جديدة ، إذا تطلب الموقف ذلك.



, « BigData» Hadoop – .


من وجهة نظر فنية ، يتم تنفيذ تفاعل Alpha BI مع Hadoop من خلال طبقة مبنية على أساس DBMS Greenplum التحليلي المتوازي بشكل كبير باستخدام بروتوكول PXF (Platform Extension Framework).



وبالمثل ، باستخدام Greenplum ، يتم تنفيذ إمكانية التحليل عبر الإنترنت والعمل مع البيانات الساخنة ، والتي ، على سبيل المثال ، يتم تحديثها كل 10 ثوانٍ. في حالة البيانات الساخنة ، يتم إنشاء التفاعل من خلال Greenplum مع قاعدة بيانات Apache Ignite الموجودة في الذاكرة أيضًا باستخدام بروتوكول PXF.



في نهاية اليوم ، يتم نقل البيانات من جدول Ignite إلى HDFS وإزالتها من Ignite.



بإيجاز ، أود أن ألخص مرة أخرى - يجب أن تعمل البيانات وتكون مفيدة. من أجل استخلاص المعرفة منهم قدر الإمكان ، يجب الانتباه إلى جميع الجوانب المذكورة أعلاه: الاقتراب بكفاءة من بناء التخزين ، لتحديد تدفقات البيانات المثلى ، لفهم مجال موضوع "الأرقام" ، لاختيار أداة للمهمة.



في الوقت نفسه ، بالطبع ، يجدر إيلاء اهتمام خاص لتشكيل الفريق وتقسيمه إلى أنواع مختلفة من المهام ، في كل منها يجب أن يعمل المحترفون ذوو التفكير المماثل.



وبعد ذلك ، ستبدأ بياناتك ، بملايين ومليارات الأسطر وتيرابايت من الذاكرة ، في العمل وإعطاء المعرفة ، وبالتالي تكون مفيدة!



سأكون سعيدًا للإجابة على أسئلتك في التعليقات!)



All Articles