الأخطاء الكبيرة في البيانات الضخمة: مشاكل التحليل في الممارسة





عند العمل مع البيانات الضخمة ، لا يمكن تجنب الأخطاء. تحتاج إلى الوصول إلى الجزء السفلي من البيانات ، وتحديد الأولويات ، وتحسين ، وتصور البيانات ، والحصول على الأفكار الصحيحة. وفقًا للاستطلاعات ، 85٪ من الشركات تسعى جاهدة لإدارة البيانات ، لكن 37٪ فقط أفادوا بالنجاح في هذا المجال. من الناحية العملية ، تعتبر دراسة التجارب السلبية أمرًا صعبًا ، لأنه لا أحد يحب التحدث عن الإخفاقات. سيسعد المحللون بالحديث عن النجاحات ، ولكن بمجرد أن يتعلق الأمر بالأخطاء ، كن مستعدًا لسماع "تراكم الضوضاء" و "الارتباط الخاطئ" و "التجانس العشوائي" ، وبدون أي تفاصيل. هل مشاكل البيانات الضخمة نظرية فقط؟



سنستكشف اليوم تجربة الأخطاء الحقيقية التي لها تأثير ملموس على المستخدمين والمحللين.



أخطاء أخذ العينات





في مقال " البيانات الضخمة: خطأ كبير؟ »تذكرت قصة مثيرة للاهتمام مع شركة ناشئة في Street Bump. دعت الشركة سكان بوسطن لمراقبة حالة سطح الطريق باستخدام تطبيق الهاتف المحمول. سجل البرنامج موقع الهاتف الذكي والانحرافات غير الطبيعية عن القاعدة: الحفر ، والمطبات ، والحفر ، إلخ. تم إرسال البيانات المستلمة في الوقت الفعلي إلى المرسل إليه المطلوب إلى خدمات البلدية.



ومع ذلك ، في مرحلة ما ، لاحظ مكتب رئيس البلدية أن هناك شكاوى من المناطق الغنية أكثر بكثير من الفقراء. أظهر تحليل الموقف أن السكان الأثرياء لديهم هواتف متصلة بالإنترنت بشكل دائم ، ويقودون السيارات في كثير من الأحيان وكانوا مستخدمين نشطين لتطبيقات مختلفة ، بما في ذلك Street Bump.



ونتيجة لذلك ، كان الهدف الرئيسي للدراسة حدثًا في التطبيق ، ولكن كان من المفترض أن تكون وحدة الاهتمام ذات الدلالة الإحصائية شخصًا يستخدم جهازًا محمولًا. بالنظر إلى التركيبة السكانية لمستخدمي الهواتف الذكية (في ذلك الوقت ، كانوا في الغالب أمريكيين بيض من ذوي الدخل المتوسط ​​والمرتفع) ، أصبح من الواضح مدى عدم موثوقية البيانات.



ظلت مشكلة التحيز غير المقصود تتجول من دراسة إلى أخرى منذ عقود: سيكون هناك دائمًا أشخاص أكثر نشاطًا يستخدمون الشبكات الاجتماعية أو التطبيقات أو علامات التصنيف أكثر من الآخرين. البيانات نفسها ليست كافية - الجودة لها أهمية قصوى. بنفس الطريقة التي تؤثر بها الاستبيانات على نتائج الاستطلاع ، فإن المنصات الإلكترونية المستخدمة لجمع البيانات تشوه نتائج الأبحاث من خلال التأثير على سلوك الناس عند العمل مع هذه المنصات.



وفقًا لمؤلفي دراسة "مراجعة طرق المعالجة الانتقائية في مصادر البيانات الضخمة" ، هناك العديد من مصادر البيانات الضخمة التي لا تهدف إلى التحليل الإحصائي الدقيق - استطلاعات الإنترنت ، ومشاهدات الصفحات على Twitter و Wikipedia ، واتجاهات Google ، وتحليل تردد الهاشتاج ، إلخ



من أكثر الأخطاء الصارخة من هذا النوع توقع فوز هيلاري كلينتون في الانتخابات الرئاسية الأمريكية لعام 2016. ووفقًا لاستطلاع أجرته رويترز / إبسوس قبل ساعات من بدء التصويت ، كان من المرجح أن تفوز كلينتون بنسبة 90٪. يقترح الباحثون أنه من الناحية المنهجية ، كان من الممكن إجراء الاستطلاع نفسه بشكل لا تشوبه شائبة ، لكن القاعدة ، المكونة من 15 ألف شخص في 50 ولاية ، تصرفت بشكل غير عقلاني - على الأرجح ، لم يعترف الكثيرون ببساطة بأنهم يريدون التصويت لصالح ترامب.



أخطاء الارتباط



غالبًا ما تحير الارتباطات غير المفهومة والعلاقات السببية المربكة عالم البيانات المبتدئ. والنتيجة هي نماذج لا تشوبها شائبة من ناحية الرياضيات وغير قابلة للتطبيق على الإطلاق في الواقع.





يوضح الرسم البياني أعلاه إجمالي عدد مشاهدات الأجسام الطائرة المجهولة منذ عام 1963. ظل عدد الحالات المبلغ عنها من قاعدة بيانات المركز الوطني للإبلاغ عن الأجسام الطائرة المجهولة كما هو تقريبًا لسنوات عديدة ، ولكن في عام 1993 كان هناك قفزة حادة.



وبالتالي ، يمكننا التوصل إلى نتيجة منطقية تمامًا مفادها أنه منذ 27 عامًا ، تولى الأجانب دراسة أبناء الأرض بجدية. كان السبب الحقيقي هو أن الحلقة الأولى من The X-Files تم إصدارها في سبتمبر 1993 (في ذروتها شاهدها أكثر من 25 مليون شخص في الولايات المتحدة).





ألقِ نظرة الآن على البيانات التي تُظهر تواتر مشاهدات الأجسام الطائرة المجهولة اعتمادًا على الوقت من اليوم واليوم من الأسبوع: أعلى معدل تكرار للمشاهد يكون باللون الأصفر البرتقالي. من الواضح أن الكائنات الفضائية تهبط على الأرض في كثير من الأحيان في عطلات نهاية الأسبوع لأنهم يذهبون إلى العمل بقية الوقت. لذا ، البحث عن الناس هو هواية بالنسبة لهم؟



هذه العلاقات المرحة لها آثار بعيدة المدى. على سبيل المثال، دراسة بشأن الحصول على طباعة في المجتمعات ذات الدخل المنخفض وجدت أن الطلاب الذين يحصلون على المزيد من الكتب الحصول على أفضل الدرجات. مسترشدة ببيانات العمل العلمي ، بدأت سلطات فيلادلفيا (الولايات المتحدة الأمريكية) في إعادة تنظيم نظام التعليم.



تضمن المشروع الذي استمر خمس سنوات تحويل 32 مكتبة لتوفير فرص متكافئة لجميع الأطفال والأسر في فيلادلفيا. للوهلة الأولى ، بدت الخطة رائعة ، لكن لسوء الحظ لم تأخذ الدراسة في الحسبان ما إذا كان الأطفال يقرؤون الكتب بالفعل - لقد نظرت فقط في مسألة ما إذا كانت الكتب متاحة أم لا.



نتيجة لذلك ، لم يتم تحقيق نتائج مهمة. الأطفال الذين لم يقرؤوا الكتب قبل الدراسة لم يقعوا فجأة في حب القراءة. خسرت المدينة ملايين الدولارات ، ولم تتحسن درجات تلاميذ المدارس من المناطق المحرومة ، واستمر الأطفال الذين نشأوا على حب الكتب في التعلم كما فعلوا.



فقدان البيانات





( ج )



قد تكون العينة صحيحة في بعض الأحيان ، لكن المؤلفين يفقدون ببساطة البيانات التي يحتاجون إلى تحليلها. حدث هذا في عمل تم توزيعه على نطاق واسع حول العالم تحت اسم "Freakonomics". استكشف الكتاب ، الذي تجاوز إجمالي توزيعه 4 ملايين نسخة ، ظاهرة ظهور علاقات السبب والنتيجة غير الواضحة. على سبيل المثال ، من بين الأفكار البارزة في الكتاب ، هناك فكرة أن سبب تراجع جرائم المراهقات في الولايات المتحدة لم يكن نمو الاقتصاد والثقافة ، ولكن تقنين الإجهاض. اعترف



مؤلفو Freakonomics ، أستاذ الاقتصاد بجامعة شيكاغو ستيفن ليفيت والصحفي ستيفن دوبنر ، بعد بضع سنواتأنه لم يتم تضمين جميع الأرقام التي تم جمعها في المسح النهائي للإجهاض ، حيث اختفت البيانات ببساطة. وأوضح ليفيت سوء التقدير المنهجي من خلال حقيقة أنهم في تلك اللحظة "كانوا متعبين للغاية" ، وأشار إلى عدم الأهمية الإحصائية لهذه البيانات في الاستنتاج العام للدراسة.



ما إذا كان الإجهاض يقلل بالفعل من الجريمة المستقبلية أم لا لا يزال محل نقاش. ومع ذلك ، فقد لاحظ المؤلفون العديد من الأخطاء الأخرى ، وبعضها يشبه بشكل ملحوظ الموقف مع شعبية طب العيون في التسعينيات.



أخطاء التحليل





( ج )



أصبحت التكنولوجيا الحيوية موسيقى الروك أند رول الجديدة لأصحاب المشاريع التقنية. ويسمى أيضًا "سوق تكنولوجيا المعلومات الجديد" وحتى "عالم التشفير الجديد" ، في إشارة إلى الشعبية الهائلة للشركات المشاركة في معالجة المعلومات الطبية الحيوية بين المستثمرين.



ما إذا كانت بيانات العلامات البيولوجية وبيانات زراعة الخلايا "زيتًا جديدًا" أم لا ، فهذه مسألة ثانوية. إن عواقب ضخ الأموال بسرعة في الصناعة ذات أهمية. بعد كل شيء ، يمكن أن تشكل التكنولوجيا الحيوية تهديدًا ليس فقط لمحافظ رأس المال الاستثماري ، ولكن أيضًا تؤثر بشكل مباشر على صحة الإنسان.



على سبيل المثال ، كما يشيرعالم الوراثة ستيفن ليبكين ، الجينوم لديه القدرة على إجراء تحليلات عالية الجودة ، لكن معلومات مراقبة الجودة غالبًا ما تكون محظورة على الأطباء والمرضى. في بعض الأحيان ، قبل طلب الاختبار ، قد لا تعرف مسبقًا مدى عمق تغطية التسلسل. عندما لا تتم قراءة الجين مرات كافية لتوفير تغطية كافية ، يجد البرنامج الطفرة في حالة عدم وجود أي طفرة. غالبًا ما لا نعرف الخوارزمية المستخدمة لتصنيف الأليلات الجينية إلى مفيدة وضارة.



هناك كبيرعدد الأوراق العلمية في مجال علم الوراثة التي تحتوي على أخطاء. قام فريق من الباحثين الأستراليين بتحليل حوالي 3.6 ألف ورقة جينية منشورة في عدد من المجلات العلمية الرائدة. نتيجة لذلك ، وجد أن حوالي واحد من كل خمسة أعمال يتضمن جينات الخطأ في قوائمهم.



مصدر هذه الأخطاء ملفت للنظر: فبدلاً من استخدام لغات خاصة للمعالجة الإحصائية للبيانات ، لخص العلماء جميع البيانات في جدول Excel. قام Excel تلقائيًا بتحويل أسماء الجينات إلى تواريخ تقويم أو أرقام عشوائية. ومن المستحيل ببساطة إعادة فحص آلاف وآلاف السطور يدويًا.



في الأدبيات العلمية ، غالبًا ما يتم الإشارة إلى الجينات بالرموز: على سبيل المثال ، يتم تقصير جين Septin-2 إلى SEPT2 ، والإصبع المرتبط بالغشاء (C3HC4) 1 إلى MARCH1. استخدم Excel الإعدادات الافتراضية لاستبدال هذه السلاسل بالتواريخ. وأشار الباحثون إلى أنهم لم يصبحوا رواد المشكلة - فقد تمت الإشارة إليها منذ أكثر من عقد.



في حالة أخرى ، وجه برنامج Excel ضربة كبيرة للاقتصاد. قام الاقتصاديان المشهوران من جامعة هارفارد كارمن راينهارت وكينيث روجوف بتحليل 3700 حالة مختلفة من زيادة الدين العام وتأثيره على النمو الاقتصادي في 42 دولة على مدى 200 عام في عملهم البحثي.



أشار عمل "النمو عبر زمن الدين" بشكل لا لبس فيه إلى أنه عندما يكون مستوى الدين العام أقل من 90٪ من الناتج المحلي الإجمالي ، فإنه لا يؤثر عمليًا على النمو الاقتصادي. إذا تجاوز الدين القومي 90٪ من الناتج المحلي الإجمالي ، ينخفض ​​متوسط ​​معدل النمو بنسبة 1٪.



كان للدراسة تأثير هائل على كيفية تعامل العالم مع الأزمة الاقتصادية الأخيرة. تم الاستشهاد بهذا العمل على نطاق واسع لتبرير تخفيضات الميزانية في الولايات المتحدة وأوروبا.



ومع ذلك ، بعد بضع سنوات ، كشف توماس هيرندورن ومايكل آش وروبرت بولين من جامعة ماساتشوستس ، بعد تحليل عمل روجوف ورينهارت نقطة تلو الأخرى ، عن أخطاء شائعة عند العمل مع برنامج Excel. الإحصائيات في الواقع لا تظهر أي علاقة بين معدلات نمو الناتج المحلي الإجمالي والدين العام.



الخلاصة: إصلاحات الأخطاء كمصدر للأخطاء





( ج )



بالنظر إلى الكم الهائل من المعلومات المطلوب تحليلها ، تنشأ بعض الارتباطات الخاطئة لمجرد أن هذه هي طبيعة الأشياء. إذا كانت الأخطاء نادرة وقريبة من العشوائية ، فقد لا تتأثر استنتاجات التحليل النهائي. في بعض الحالات ، لا جدوى من التعامل معها ، لأن الصراع مع الأخطاء في جمع البيانات يمكن أن يؤدي إلى ظهور أخطاء جديدة.



صاغ الإحصائي الشهير إدوارد ديمينغ وصف هذه المفارقة على النحو التالي: إن إنشاء عملية مستقرة للتعويض عن الانحرافات الصغيرة المتاحة من أجل تحقيق أفضل النتائج يمكن أن يؤدي إلى نتائج أسوأ مما لو لم يكن هناك تدخل في العملية.



لتوضيح مشاكل التصحيح المفرط للبيانات ، نستخدم محاكاة التصحيحات في عملية إسقاط الكرات عن طريق الخطأ عبر قمع. يمكن تعديل العملية باستخدام عدة قواعد ، والغرض الرئيسي منها هو توفير فرصة للاقتراب من مركز القمع قدر الإمكان. ومع ذلك ، كلما اتبعت القواعد أكثر ، زادت إحباط النتائج.



أسهل طريقة لتجربة مسار التحويل هي عبر الإنترنت ، حيث تم إنشاء جهاز محاكاة . اكتب في التعليقات النتائج التي حققتها.






يمكننا تعليمك كيفية تحليل البيانات الضخمة بشكل صحيح في MADE Academy ، وهو مشروع تعليمي مجاني من Mail.ru Group. نحن نقبل طلبات التدريب حتى 1 أغسطس ضمنا.



All Articles