الاتجاهات الرئيسية لعلوم البيانات في عام 2020 ، والتي ستكون ذات صلة في عام 2021

مرحبا هبر! سأخبرك اليوم كيف يتطور مجال علم البيانات. لقد أصبح عام 2020 نقطة تحول ليس فقط بالنسبة للعالم ككل ، بل إن قطاع البيانات يتحسن بنشاط ، واليوم يمكننا بالفعل تلخيص نتائج العام. تعرف على اتجاهات DS في 2020-2021.







لقد صنعت KDPV ، ثم قمت بمعالجته باستخدام شبكة عصبية. من اعترف بالفيلم - ذلك الزميل! :-)




الذكاء الاصطناعي والشبكات العصبية



لا يزال الذكاء الاصطناعي يواجه صعوبات في اختبار تورينج ، ولكن هناك نجاحات في هذا المجال.


في مايو 2020 ، أصدر فريق OpenAI خوارزمية معالجة اللغة الطبيعية GPT-3 الجديدة. إنها بلا شك أفضل خوارزمية متاحة اليوم لهذا الغرض.



تعد تحسينات النظام على الإصدار السابق من GPT-2 هائلة. زاد عدد معلمات الخوارزمية أكثر من 100 مرة. يستخدم GPT-3 175 مليار معلمة ، عندما يستخدم GPT-2 1.5 مليار فقط ،







وإذا كانت الشبكة العصبية في وقت سابق يمكن أن تولد نصًا يشبه الإنسان تقريبًا ، فإن قدراتها الآن أوسع بكثير.



نشر أحد الطلاب في حساب Apolos الخاص به مقالات كتبها GPT-3. ليس صعبًا جدًا ، بأسلوب المدرب التحفيزي. ويشتبه واحد فقط من بين عشرات الآلاف من القراء في أن المقالات لم يكتبها شخص.







في الواقع ، هذا هو السبب في أن OpenAI لا تطلق الخوارزمية للوصول المجاني - يمكنها ببساطة دفن الإنترنت في ظل انهيار الأخبار المزيفة.



الفوائد المحتملة لـ GPT-3 هائلة. من إنشاء جيل جديد من المساعدين الصوتيين إلى تطوير ميكانيكا اللعبة التكيفية التي ستأخذ RPG إلى مستوى جديد تمامًا.



بالمناسبة ، هل جربت لعبة AI Dungeon ، وهي لعبة نصية يلعبها GPT-3؟ إذا لم يكن كذلك ، فجربها ، إنها تجربة ممتعة للغاية. تصف هذه المقالة إحدى هذه التجارب.


ذكاء القرار



علم القرار هو تخصص حديث إلى حد ما يدرس النظريات العلمية حول صنع القرار. بحيث لا يتم اتخاذ القرارات على أساس الخبرة الذاتية أو مشاعر صانع القرار ، ولكن من خلال تحليل ومقارنة البيانات.



تسمح لك شركة DI بأتمتة اتخاذ القرارات الروتينية والتشغيلية ، مما يخفف من حدة صانع القرار.



InferVision, Alpha Go, 2015 , 2020 . , . . 10 30 .



InferVision, 5 . , . . , , , .



يعتمد ذكاء القرار على الذكاء الاصطناعي والتعلم العميق. تم تدريب InferVision ، على سبيل المثال ، على 100 ألف حالة.



بالطبع ، مع التطور الحالي للتكنولوجيا ، لا يزال الذكاء الاصطناعي غير قادر على اتخاذ قرارات أفضل بشكل موضوعي في الأنظمة ذات المتغيرات المتعددة. إنه ببساطة ليس لديه ما يكفي من الطاقة وبيانات الإدخال للتحليل. ولكن في لحظات كثيرة يسمح لك باستبعاد اندفاع الشخص وتحيزه وأخطاء تفكيره العادية. وأيضًا لأتمتة عمليات اتخاذ القرار الروتينية وتوفير وقت المتخصص لحل المشكلات المعقدة.



تحليلات السحابة



كانت أنظمة التحليلات السحابية موجودة من قبل ، ولكن في عام 2020 زادت ديناميكيات تطويرها بشكل كبير.



تعمل التحليلات السحابية على تبسيط عملية استخدام مجموعات البيانات الكبيرة التي يتم تحديثها بشكل متكرر. يساعد نظام تحليلات واحد لجميع وحدات الأعمال على تحديث نتائج التحليلات وتسريع استخدامها.



التحليلات في الوقت الفعلي هي الخطوة التالية التي تسعى العديد من الشركات جاهدة لتحقيقها. من الأفضل العمل مع نتائج التحليل الساخنة التي تم إجراؤها قبل بضع ثوانٍ. بعد كل شيء ، قد يكون التحليل الذي تم إجراؤه بالأمس غير دقيق بالفعل.



تعد التحليلات السحابية أداة واعدة لعمالقة الأعمال الذين لديهم أقسام تحليلية في كل فرع. لذلك ، فإن الشركات الكبيرة مثل IBM اليوم منخرطة بشكل وثيق في تطوير مثل هذه الأنظمة.



أسواق البيانات



التحليلات المتعلقة بالسحابة ، لكنها ظاهرة منفصلة. 



جودة البيانات للتحليل أمر بالغ الأهمية. إذا لم يكن لدى الشركة الناشئة الفرصة لإجراء أبحاث تسويقية عالمية ، فإنها تتعرض لخطر التحرك بشكل أعمى ، وعدم معرفة الاحتياجات الحقيقية للجمهور المستهدف. 



ولكن الآن يمكن شراء التحليلات. أسواق البيانات هي أسواق معلومات كاملة. تعد Statista الشهيرة واحدة من أولى الأسواق المماثلة ، ولكن الصناعة الآن تنمو بوتيرة هائلة.



بطبيعة الحال ، لا أحد يبيع البيانات الشخصية (على الأقل من الناحية القانونية). يحمي القانون الأسماء والألقاب والعناوين السكنية وأرقام الهواتف والبريد الإلكتروني. ولكن يمكن بيع البيانات مجهولة المصدر. وهناك الكثير من الأشياء المفيدة للأعمال. العمر والجنس والحالة الاجتماعية والتفضيلات ومجال العمل والهوايات والجنسية ومئات من المعلمات الأخرى التي تتركها على الشبكة ، حتى اختيار الأدوات على iOS أو Android. نتذكر الحقيقة القديمة - إذا كان هناك شيء ما على الشبكة مجاني ، فربما تكون أنت الدفع.


السوق البيانات الكبيرة في عام 2020 هو 138900000000 $. يتوقع الخبراء أنه بحلول عام 2025 سينمو إلى 229.4 مليار ، وهذا مقياس هائل ، حيث سيشغل بيع المعلومات ، وليس التعدين ، نصيب الأسد.



Blockchain في التحليلات



لقد ذهب ضجيج blockchain قليلاً بالفعل. في عام 2017 ، لم يرغب سوى الأشخاص الكسالى في إطلاق عملتهم المشفرة ، وفي عام 2020 ، يتم استخدام blockchain لأغراض أكثر واقعية.



يُطلق على الجمع بين blockchain والبيانات الضخمة الاتحاد المثالي. يركز Blockchain على استخراج البيانات الموثوقة وتسجيلها ، ويحلل علم البيانات كميات كبيرة من البيانات للعثور على أنماط التنمية وإجراء التنبؤات.



البيانات الضخمة هي الكمية و blockchain هي الجودة.

هناك مجموعة من الفوائد المحتملة من دمج blockchain في تحليل البيانات الضخمة:



  • تحسين أمان البيانات ونتائج التحليلات.

  • الحفاظ على أقصى قدر من سلامة البيانات.

  • منع استخدام البيانات الخاطئة.

  • تحليلات في الوقت الحقيقي. 

  • تحسين جودة البيانات الضخمة.



Blockchain لـ KYC (تعرف على عملائك). يتم استخدام التكنولوجيا من قبل البنوك والهيئات الحكومية. ولكن نظرًا لعدم وجود مستودع بيانات مشترك بين المؤسسات المختلفة ، يجب تحديد كل منها على حدة. Blockchain يحل هذه المشكلة. 



منصة Nexleger من سامسونج ، والتي تم إطلاقها في كوريا ، تبسط هذا المخطط. الآن يكفي الخضوع لإجراءات تحديد الهوية الكاملة في بنك أو مؤسسة واحدة فقط. إذا كنت بحاجة إلى إنشاء حساب مصرفي ، مضمن في نظام المشروع ، فيمكن القيام بذلك في بضع دقائق. الآن كل دوائر الجحيم البيروقراطية بحاجة إلى المرور مرة واحدة فقط - هذا كل شيء.


قواعد بيانات الرسم البياني



ليس أكثر أنواع نظم إدارة قواعد البيانات شيوعًا وانتشارًا. إنه مصمم خصيصًا لتخزين الطوبولوجيا التي تتضمن العقد وعلاقاتها. إنها ليست مجرد مجموعة بيانات بتنسيق الجدول الكلاسيكي. جوهرهم مختلف.



تعتمد الرسوم البيانية على العلاقات بين الكيانات وليس الكيانات نفسها.











وهذا مجرد klondike للتسويق. بعد كل شيء ، يمكن استخدام تحليل قاعدة بيانات الرسم البياني لتحليل قادة الرأي والمؤثرين على الشبكات الاجتماعية ، وتخصيص الإعلانات ، وبرامج الولاء ، وتحليل الحملات الفيروسية ، وتحسين مُحسّنات محرّكات البحث ، وغير ذلك الكثير.



تسمح لك الرسوم البيانية بتحليل الهياكل الهرمية المعقدة التي قد يكون من الصعب تصميمها باستخدام قواعد البيانات العلائقية.



في عام 2020 ، تم استخدام تحليل الرسم البياني بنشاط لتتبع انتشار الفيروس في الصين وخارجها. تستند الدراسة إلى بيانات ديناميكية من 200 دولة ، مما يسمح بالتنبؤ بالتطور المستقبلي للوضع في العالم واتخاذ تدابير للتخفيف من العواقب. إذا كنت مهتمًا ، فإن الدراسة الكاملة هنا .


في عام 2020 ، زاد الاهتمام بنظم DBMS للرسم البياني بشكل كبير. يتم استخدامها من قبل Ebay و Airbnb و IBM و Adobe و NBC News وعشرات من الشركات الكبرى الأخرى. والمتخصصون الذين يعرفون كيفية العمل بشكل جيد مع قواعد بيانات الرسم البياني يستحقون وزنهم ذهباً.



بايثون في علم البيانات



تواصل Python الاستحواذ على سوق التحليلات والتطوير العالمي. وموقفه يزداد قوة. يمكنك قراءة المزيد في هذا المقال .



في تصنيف PYPL ، تتصدر Python ، التي تحلل اتجاهات Google ، بثقة. 



تحتل Python المرتبة الثانية في تصنيف GitHub لعدد طلبات السحب: 15.9٪ من العدد الإجمالي لجميع طلبات السحب. للمقارنة ، فإن لغة R ، التي تتنافس بها Python دائمًا في التحليلات ، تحتل بالفعل المرتبة 33 ، وهي تمثل 0.09٪ فقط من طلبات السحب. 



هناك حاجة إلى المزيد من الخبراء مع إتقان لغة Python في التحليلات. قمنا مؤخرًا بتحليل سوق عمل Data Science في روسيا ووجدنا أن معرفة Python مطلوبة في 81٪ من الوظائف الشاغرة ، لكن R (بدون Python) مطلوبة فقط في 3٪ من الحالات.



تظل R لغة جيدة للتحليلات ، لكن Python استحوذت على السوق بالكامل تقريبًا. إذا كانوا في عام 2012 في نفس الموقف تقريبًا ، فلا يمكن إنكار قيادة بايثون الآن. وهذا يجب أن يؤخذ في الاعتبار.



جلب عام 2020 الكثير من الأشياء الجديدة لعلوم البيانات ، لأن مجال تحليلات البيانات الضخمة نفسه يتطور الآن بنشاط. بالطبع ، هذه ليست كل الاتجاهات الجديرة بالذكر. وسؤال منفصل لعلماء البيانات - ما هي الاتجاهات المهنية التي أثرت في عملك هذا العام أكثر من غيرها؟ نحن مهتمون جدًا بالسماع.



صورة













All Articles