الفكرة الأكثر أهمية في علم البيانات

نصائح لفصل الانحرافات عن المعلومات المفيدة



صورة



إذا أخذت دورة تمهيدية حول الإحصائيات ، فسوف تدرك أنه يمكن استخدام البيانات للعثور على الإلهام أو نظرية الاختبار ، ولكن ليس لكليهما أبدًا. لماذا هذا؟



الناس بارعون جدًا في العثور على أنماط في كل شيء. أنت بنفسك تحدد الأنماط الموجودة بالفعل والتي يتم اختراعها. نحن مخلوقات تجد وجه الفيس في شريحة البطاطس. إذا كنت تميل إلى مساواة الأنماط بالمفاهيم ، فتذكر أن هناك ثلاثة أنواع من الأنماط:



  • الأنماط الموجودة في مجموعة البيانات وخارجها.
  • الأنماط الموجودة فقط في مجموعة البيانات الخاصة بك.
  • الأنماط الموجودة فقط في خيالك (apophenia).


صورة



يمكن أن يوجد نمط من البيانات (1) في إجمالي السكان محل الاهتمام ، (2) فقط في العينة ، أو (3) في رأسك فقط.



ما هي الأنماط وأنماط البيانات التي قد تكون مفيدة لك؟ ذلك يعتمد على أهدافك.



وحي - الهام



إذا كنت بحاجة إلى إلهام خالص ، يمكن أن تعمل البيانات عجائب. حتى apophenia (الميل البشري إلى إدراك الروابط والمعنى عن طريق الخطأ بين الأشياء غير ذات الصلة) يمكن أن يجعل إبداعك يعمل على أكمل وجه. ليس للإبداع الإجابات الصحيحة ، لذا كل ما عليك فعله هو النظر إلى بياناتك واللعب بها. كمكافأة إضافية ، حاول ألا تضيع الكثير من الوقت (لك أو المهتمين) عبثا.



حقائق



عندما تريد حكومتك تحصيل الضرائب منك ، لا يمكنها تجاهل القيم التي تتجاوز بياناتك المالية للسنة. تحتاج خدمة الضرائب إلى اتخاذ قرار واقعي بشأن المبلغ المستحق عليك والطريقة الرئيسية لاتخاذ هذا القرار هي تحليل البيانات من العام الماضي. بمعنى آخر ، انظر إلى البيانات وقم بتطبيق الصيغة. في هذه الحالة ، نحن نتحدث عن تحليلات وصفية بحتة ، مرتبطة بالبيانات المتاحة. أي من النوعين الأولين من أنماط جيدة لهذا.



التحليلات الوصفية مرتبطة بالبيانات الموجودة.


(لم أخف بياناتي المالية أبدًا ، لكنني أعتقد أن حكومة الولايات المتحدة لن تشعر بالإثارة إذا استخدمت طرق حساب البيانات التي تعلمتها في كلية الدراسات العليا لدفع الضرائب إحصائيًا لاستبدالها.



قرارات في مواجهة عدم اليقين



في بعض الأحيان لا تتطابق الحقائق المتاحة مع الحقائق المرغوبة. عندما لا يكون لديك جميع المعلومات اللازمة لاتخاذ قرار ، يجب أن تسترشد بعدم اليقين ، في محاولة لاختيار مسار عمل معقول.



هذا هو ما تعنيه الإحصائيات - علم كيفية تغيير رأيك في وجه عدم اليقين. اللعبة هي القفز إلى المجهول مثل إيكاروس ... وفي الوقت نفسه عدم الاصطدام بالسمتيرين.



هذا هو التحدي الرئيسي لعلم البيانات: كيف لا تكون * جاهلاً * نتيجة لعلم البيانات.


قبل القفز من هذا المنحدر ، من الأفضل أن تأمل أن الأنماط التي وجدتها في عرضك المحدود للواقع تعمل بالفعل خارج رؤيتك. بمعنى آخر ، لكي تكون مفيدة لك ، يجب تعميم القوالب.



صورة


من بين الأنواع الثلاثة للأنماط ، عند اتخاذ القرارات في ظل عدم اليقين ، يكون النوع الأول (المعمم) فقط آمنًا. لسوء الحظ ، ستجد أنواعًا أخرى من الأنماط في بياناتك - هذه هي المشكلة الكبيرة الكامنة وراء علم البيانات: كيف لا تفقد وعيك نتيجة دراسة البيانات.



تعميم



إذا كنت تعتقد أن العثور على أنماط غير مجدية في البيانات هو امتياز إنساني بحت - فكر مرة أخرى! إذا لم تكن حذرًا ، فيمكن للآلات القيام بنفس الشيء تلقائيًا.



الهدف الأساسي من التعلم الآلي والذكاء الاصطناعي هو تعميم المواقف الجديدة بشكل صحيح.


التعلم الآلي هو نهج لاتخاذ العديد من القرارات المماثلة ، والتي تنطوي على البحث الخوارزمي للأنماط في بياناتك واستخدامها للرد بشكل صحيح على البيانات الجديدة تمامًا. في التعلم الآلي ولغة الذكاء الاصطناعي ، يشير التعميم إلى قدرة نموذجك على الأداء بشكل جيد مع البيانات التي لم يشاهدها من قبل. ما هي الفائدة من نموذج قائم على القالب لا يعمل إلا بشكل جيد مع البيانات القديمة؟ للقيام بذلك ، يمكنك ببساطة استخدام جدول البحث. الهدف الأساسي من التعلم الآلي والذكاء الاصطناعي هو إجراء التعميمات الصحيحة في المواقف الجديدة.



صورة


هذا هو السبب في أن النوع الأول من الأنماط في قائمتنا هو الوحيد الذي يعمل بشكل جيد لتعلم الآلة. هذا النوع من البيانات هو إشارة ، وكل شيء آخر هو مجرد ضجيج (عوامل موجودة فقط في بياناتك القديمة وتتداخل مع إنشاء نموذج قابل للتعميم).



الإشارة: الأنماط الموجودة في مجموعة البيانات الخاصة بك وخارجها.



الضوضاء: الأنماط الموجودة فقط في مجموعة البيانات الخاصة بك.


في الواقع ، إن الحصول على حل يعالج الضوضاء القديمة بدلاً من البيانات الجديدة هو ما يسمى بملاءمة التعلُم الآلي (نلفظ هذا المصطلح بنفس النغمة التي تنطق بها كلمة لعنة المفضلة لديك). في التعلم الآلي ، يتم عمل كل شيء تقريبًا لتجنب الإفراط في التجهيز.



إذن ما هو نوع هذه العينة *؟



افترض أن النمط الذي قمت باستخراجه (أو جهاز الكمبيوتر الخاص بك) من بياناتك موجود خارج خيالك - ما الفئة التي تنتمي إليها؟ هل هي ظاهرة حقيقية موجودة في إجمالي اهتمامك (إشارة) أم أنها ميزة لمجموعة البيانات (الضجيج)؟ كيف تحدد نوع النمط الموجود عند العمل مع البيانات؟



إذا قمت بفحص جميع البيانات المتاحة ، فلن تتمكن من القيام بذلك. سوف تتعثر ولن تتمكن من معرفة ما إذا كان القالب الخاص بك موجودًا في مكان آخر. كل الخطاب حول اختبار الفرضيات الإحصائية يعتمد على عدم التوقع ، والتظاهر بأن نمطًا معروفًا يفاجئك هو طعم سيء (في الواقع ، هذا هو القرصنة).



صورة



إنه مثل رؤية سحابة على شكل أرنب ثم التحقق لمعرفة ما إذا كانت جميع الغيوم تبدو مثل الأرانب ... تبحث في نفس السحابة. آمل أن تفهم أنك ستحتاج إلى سحب جديدة لاختبار نظريتك.



لا يمكن استخدام أي بيانات تستخدم لتشكيل نظرية أو سؤال لاختبار نفس النظرية.


ماذا ستفعل إذا علمت أنه يمكنك الوصول إلى سحابة واحدة فقط؟ تأمل في غرفة المؤن ، هذا ما. اطرح سؤالك قبل إلقاء نظرة على البيانات.



الرياضيات لا تتعارض مع الحس السليم.


هنا نصل إلى استنتاج حزين. إذا كنت تستخدم مجموعة البيانات الخاصة بك للإلهام ، فلا يمكنك استخدامها مرة أخرى لاختبار النظرية المستوحاة تمامًا (بغض النظر عن حيل الرياضيات الجيو جيتسو التي تستخدمها ، فالرياضيات لا تتعارض مع المنطق السليم).



اختيار صعب



النقطة هي أن عليك الاختيار! إذا كان لديك مجموعة بيانات واحدة فقط ، فأنت مجبر على أن تسأل نفسك: "أتأمل في الخزانة ، وأضع نظرياتي للاختبار الإحصائي ، ثم أتبع نهجًا صارمًا بعناية - وكل هذا حتى أتمكن من أخذ نفسي على محمل الجد؟ أو هل أقوم فقط بجمع البيانات للإلهام ، وفي نفس الوقت أفهم أنه يمكنني خداع نفسي وأتذكر أنه يجب علي استخدام عبارات مثل "أشعر" أو "مصدر إلهام" أو "لست متأكدًا"؟ اختيار صعب!



أم أن هناك طريقة لتناول قطعة واحدة من الكعكة مرتين؟ المشكلة هي أنه لديك مجموعة بيانات واحدة فقط ، وتحتاج إلى أكثر من مجموعة بيانات واحدة. وإذا كان لديك ما يكفي من البيانات ، فلدي خدعة. ينفجر. الخاص بك. الدماغ.



صورة



خدعة صعبة



لتحقيق النجاح في علوم البيانات ، ما عليك سوى تحويل مجموعة بيانات واحدة إلى اثنتين (على الأقل) بتقسيم بياناتك. ثم استخدم أحدهما للإلهام والآخر للاختبار الدقيق. إذا كان النمط الذي ألهمك في البداية موجودًا أيضًا في البيانات التي لا يمكن أن تؤثر على رأيك ، فمن المرجح أن هذا النمط هو قاعدة عامة سارية في فضلات القطط التي تأخذ منها بياناتك.



إذا لوحظت نفس الظاهرة في مجموعتي البيانات ، فقد تكون هذه قاعدة عامة تتجلى في جميع مصادر هذه البيانات.


RSChD!



نظرًا لأن الحياة بدون استكشاف ليست حياة على الإطلاق ، فإليك أربع كلمات للعيش بها: شارك بياناتك اللعينة .



سيكون العالم مكانًا أفضل إذا شارك الجميع بياناتهم. سيكون لدينا إجابات أفضل (بفضل الإحصائيات) وأسئلة أفضل (بفضل التحليلات). السبب الوحيد الذي يجعل الناس لا يرون مشاركة البيانات كعادة إلزامية هو أنه في القرن الماضي كان ترفًا لا يستطيع سوى عدد قليل جدًا من الناس تحمله. كانت مجموعات البيانات صغيرة جدًا لدرجة أنك إذا حاولت فصلها ، فربما لن يتبقى منها شيء.



صورة


قم بفصل بياناتك في مجموعة بيانات بحث متاحة للجميع والتي يمكن استخدامها للإلهام ، ومجموعة اختبار ، والتي سيتم استخدامها لاحقًا من قبل الخبراء لتأكيد أي "تخمينات" موجودة في مرحلة البحث بدقة.



لا تزال بعض المشاريع تواجه هذه المشكلة ، خاصة في البحث الطبي (كنت أعمل في علم الأعصاب ، لذلك لدي الكثير من الاحترام لتعقيد العمل مع مجموعات البيانات الصغيرة) ، ولكن لدى الكثير منكم الكثير من البيانات التي تحتاجها لتوظيف المهندسين. فقط لترتيب حركتهم ... ما عذر لديك؟! لا تبخل ، شارك بياناتك.



إذا لم تكن معتادًا على مشاركة البيانات ، فقد تكون عالقًا في القرن العشرين.


إذا كان لديك الكثير من البيانات ، ولم يتم تقسيم مجموعاتها ، فأنت موجود في نموذج قديم. إن الأشخاص الموجودين في هذا النموذج قد توصلوا إلى تفاهم مع التفكير القديم ورفضوا المضي قدمًا في الوقت المناسب.



التعلم الآلي - سليل تقسيم البيانات



في النهاية ، الفكرة بسيطة. استخدم مجموعة بيانات واحدة لتشكيل نظرية ، واكتشف مجموعة البيانات هذه ، ثم قم بالسحر - أثبت أفكارك حول مجموعة بيانات جديدة بالكامل.



مشاركة البيانات هي أبسط حل سريع لثقافة بيانات أكثر صحة.


بهذه الطريقة يمكنك استخدام الأساليب الإحصائية بأمان وتأمين نفسك ضد الإفراط في التجهيز. في الواقع ، إن تاريخ التعلم الآلي هو تاريخ مشاركة البيانات.



كيفية استخدام أفضل فكرة في علم البيانات



للاستفادة من أفضل فكرة في علم البيانات ، كل ما عليك فعله هو التأكد من إبقاء بيانات الاختبار بعيدًا عن متناول أعين المتطفلين ، ثم دع المحللين يجنون على كل شيء آخر.



لتحقيق النجاح في علوم البيانات ، ما عليك سوى تحويل مجموعة بيانات واحدة إلى (على الأقل) مجموعتين من خلال تقسيم بياناتك.


عندما تقرر أنهم قدموا لك معلومات مفيدة تتجاوز ما تعلموه ، استخدم ذاكرة التخزين المؤقت السرية لبيانات الاختبار للتحقق من النتائج التي توصلت إليها.



صورة



تعرف على تفاصيل كيفية الحصول على مهنة رفيعة المستوى من الصفر أو المستوى الأعلى في المهارات والراتب من خلال الحصول على دورات SkillFactory المدفوعة عبر الإنترنت:











All Articles