مرحبا! هذا هو بيوتر لوكيانتشينكو (بيتر بافلوفيتش). قائمة التحقق الخاصة بي عبارة عن مجموعة من الأفكار التي تطورت على مدار سنوات مليئة بالمطبات والأخطاء.
1. بيان المشكلة
تحقق دائمًا من المشكلة التي تريد احتسابها. ماذا ستفعل؟ لتصنيف شيء ما؟ احسب؟ سيحدد الفهم الواضح للمهمة الإجراء التالي.
2. البيانات (إدخال القمامة = إخراج القمامة)
تأكد دائمًا من عدم وجود تكرارات في البيانات. تعني عبارة "Garbage In = Garbage Out" أنه إذا تم جمع البيانات بطريقة ما ، فستظهر النتيجة بطريقة ما. بالمناسبة ، هذا هو السبب في وجود مهنة منفصلة لمهندس البيانات - المتخصصون الذين غالبًا ما يقومون بعمل بطولي ، يقومون ببساطة بتنظيف البيانات المثيرة للاشمئزاز. إنهم يعرفون كيفية تحديد الانحرافات المتطرفة فيها ، وإزالتها ، وتصحيحها ، حتى يتمكن المحللون اللاحقون من العمل مع مجموعات بيانات عالية الجودة.
3. مجال الموضوع
تعرف دائمًا على مجال الموضوع الذي تبني فيه انحدارك. سيساعد هذا في اختبار الفرضيات من أجل الواقعية. وبهذا الفهم ، سوف تتجنب الجهد الضائع في حساب الانحدارات السخيفة من سلسلة "كيف يؤثر معدل ذوبان الأنهار الجليدية على نمو أعداد الأرانب في أستراليا".
4. منطق النموذج
لا يمكنك العمل بدون منطق. إن فهم منطق النموذج ، ما إذا كان هناك منطق في هذه العلاقة أمر مهم للغاية. في هذه الحالة ، قد تكون النتيجة التي تم الحصول عليها عالية الجودة ، ولكن في نفس الوقت لا يمكن تفسيرها. لذلك إذا بدا أنه لا يوجد منطق ، فمن الأفضل عدم احتساب الانحدار ، لأنه في هذه الحالة سيتحول إلى غباء ، مما سيؤدي إلى قرارات خاطئة جديدة.
5. تعتبر المقاييس في الاختبار أكثر أهمية من مقاييس التدريب
عندما نتدرب على الانحدار ، نستخدم مقياسًا للتدريب. هذا مقياس MSE أو بديل. وعندما نحسب العديد من الانحدارات ، يمكننا مقارنتها مع بعضها البعض. تم استخدام مقياس R-square هنا بالفعل.
مقياس التدريب على الانحدار ومقياس تقييم الانحدار (الاختبار) مقياسان مختلفان. وإذا تعلم النموذج جيدًا ، فهذا لا يعني أنه سيتم اختباره جيدًا. يجب تحديد كل من هذه المقاييس بعناية وبشكل صحيح.
6 كلما كان الانحدار أبسط ، كان ذلك أفضل
وكلما زادت صعوبة الانحدار ، زاد احتمال حدوث خطأ ما.
7. أفضل الانحدار الجيد من الانحدار التام في ساعة
إذا توصلت إلى تراجع جيد ، فمن الأفضل أن تتوقف عند هذا الحد. لا تحاول أن تفعل شيئًا مثاليًا ودقيقًا للغاية. قد تتفاقم محاولة التحسين أحيانًا. نعم ، تريد تحقيق 100 توقع ، ولكن في الحياة الواقعية لا توجد جودة بنسبة 100٪. حتى أفضل مقاييس الجودة على Kaggle هي 96-98٪.
يوجد الآن في معايرة النماذج الكثير من العمل الفكري اليدوي الذي يتطلب مهارات معينة من متخصص. نعم ، نحن جميعًا نسعى جاهدين للتعلم الآلي ، أي اختيار Python التلقائي لأفضل طراز. لكن حتى الآن هذه حالة غير قابلة للتحقيق ، وبدون فهم الجهاز الرياضي من المستحيل اختيار النموذج الصحيح. تخيل أنك حصلت على سلسلة زمنية مشابهة للرسم البياني أدناه ، وسُئل منك "الرجاء توقع ...".
في مثل هذا التاريخ المحدد ، يمكنك بناء عدد كبير من الانحدارات المختلفة ، حيث يعطي كل منها توقعاته الخاصة. إليك كيفية اختيار أفضل توقع ، وكيفية تحديد القيم المتطرفة في البيانات والعديد من الأشياء العملية الأخرى التي نمر بها في الدورة التدريبية المتقدمة الرياضيات لعلوم البيانات .
لذلك ، إذا كنت تعمل بالفعل أو ستنتقل فقط إلى مجال علوم البيانات ، لكنك تعرف الرياضيات على مستوى "اجتاز شيئًا ما في المعهد" ، فستحصل هنا على جميع المهارات المفقودة.
يمكنك العثور على مزيد من المعلومات المفيدة في قناة برقية المؤلف لبيتر .