في هذا المنشور ، قمت بتجميع قائمة مرجعية أشير إليها باستمرار أثناء العمل على مشروع شامل للتعلم الآلي.
لماذا أحتاج إلى قائمة تحقق على الإطلاق؟
نظرًا لأنه يجب عليك التعامل مع العديد من عناصر المشروع (التحضير ، الأسئلة ، النماذج ، التعديلات ، إلخ) ، فمن السهل أن تفقد المسار. سيرشدك خلال الخطوات التالية ويدفعك للتحقق مما إذا كانت كل مهمة قد اكتملت بنجاح أم لا.
في بعض الأحيان نحاول العثور على نقطة بداية ، تساعدك قائمة المراجعة على استخراج المعلومات (البيانات) الصحيحة من المصادر الصحيحة لإنشاء العلاقات وكشف أفكار الارتباط.
يوصى بأن يمر كل جزء من المشروع بنموذج المراجعة.
كما يقول أتول جاواندي في كتابه "بيان قائمة المراجعة" ،
لقد تجاوز نطاق وتعقيد ما نعرفه قدرتنا الفردية على تقديم الفوائد بشكل صحيح وآمن وموثوق.
لذا دعني أطلعك على هذه القائمة الواضحة والمختصرة من الإجراءات التي من شأنها تقليل عبء عملك وتحسين نتائجك ...
قائمة مراجعة لمشاريع التعلم الآلي
فيما يلي 8 خطوات يجب اتباعها في كل مشروع تقريبًا. يمكن تنفيذ بعض الخطوات بالتبادل بالترتيب.
1. تحديد المشكلة من منظور رفيع المستوى
هذا لفهم وصياغة منطق الأعمال للمشكلة. هذا يجب أن يخبرك:
- طبيعة المشكلة (مضبوطة / غير منضبطة ، التصنيف / الانحدار) ،
- نوع الحلول التي يمكنك تطويرها
- ما المقاييس التي يجب عليك استخدامها لقياس الأداء؟
- هل التعلم الآلي هو النهج الصحيح لحل هذه المشكلة؟
- النهج اليدوي لحل المشكلة.
- المتطلبات الأساسية للمشكلة
2. تحديد مصادر البيانات والحصول على البيانات
في معظم الحالات ، يمكن القيام بهذه الخطوة قبل الخطوة الأولى إذا كانت لديك البيانات وترغب في تحديد الأسئلة (المشاكل) حولها من أجل الاستفادة بشكل أفضل من بيانات الإدخال.
بناءً على تعريف مشكلتك ، ستحتاج إلى تحديد مصادر البيانات ، والتي يمكن أن تكون قاعدة بيانات ، ومستودع بيانات ، وأجهزة استشعار ، وما إلى ذلك. لنشر تطبيق في الإنتاج ، يجب أن تتم هذه الخطوة تلقائيًا من خلال تطوير خطوط بيانات تسمح للبيانات الواردة بدخول النظام.
- سرد مصادر وكمية البيانات التي تحتاجها.
- تحقق مما إذا كان الموقع سيشكل مشكلة.
- تحقق مما إذا كان مسموحًا لك باستخدام البيانات لأغراضك أم لا.
- الحصول على البيانات وتحويلها إلى تنسيق عملي.
- التحقق من نوع البيانات (نص ، فئوي ، رقمي ، سلسلة زمنية ، صور)
- حدد عينة للاختبار النهائي.
3. استكشاف البيانات الأولية
في هذه المرحلة ، تدرس جميع الميزات التي تؤثر على نتيجتك / توقعاتك / هدفك. إذا كانت لديك كمية كبيرة من البيانات ، فجرّب هذه الخطوة لجعل تحليلك أكثر قابلية للإدارة.
خطوات:
- استخدم Notebook Jupyter لأنه يوفر واجهة بسيطة وبديهية لاستكشاف البيانات.
- تحديد المتغير الهدف
- تحديد أنواع الميزات (فئوية ، رقمية ، نصية ، إلخ.)
- تحليل العلاقة بين الميزات.
- أضف تصورات متعددة للبيانات لتفسير تأثير كل ميزة على المتغير الهدف بسهولة.
- توثيق نتائج بحثك.
4. تحليل البيانات الاستكشافية لإعداد البيانات
حان الوقت للاستفادة من الدروس من الخطوة السابقة من خلال تحديد وظائف تحويل البيانات والتنظيف واختيار / تصميم الميزات والقياس.
- وظائف الكتابة لتحويل البيانات وأتمتة عملية حزم البيانات القادمة.
- دالات الكتابة لتنظيف البيانات (احتساب القيم المفقودة ومعالجة القيم المتطرفة)
- وظائف الكتابة لتحديد وتصميم الميزات - إزالة الميزات الزائدة ، وتحويلات كائن التنسيق ، والتحويلات الرياضية الأخرى.
- تحجيم الميزات - توحيد الميزات.
5. تطوير نموذج أساسي ثم استكشاف نماذج أخرى لتحديد الأفضل
إنشاء نموذج أساسي جدًا يجب أن يكون بمثابة الأساس لجميع نماذج التعلم الآلي المعقدة الأخرى. قائمة التحقق من الخطوات:
- تدريب عدة نماذج شائعة الاستخدام مثل نموذج بايز ساذج ، ونموذج الانحدار الخطي ، SVM ، وما إلى ذلك ، باستخدام المعلمات الافتراضية.
- قم بقياس ومقارنة أداء كل نموذج مع النموذج الأساسي ومع جميع النماذج الأخرى.
- استخدم التحقق المتقاطع N-fold لكل نموذج وحساب المتوسط والانحراف المعياري لمقاييس أداء N-fold.
- استكشف الميزات التي لها أكبر تأثير على الهدف.
- حلل أنواع الأخطاء التي ترتكبها النماذج عند التنبؤ.
- وظائف التصميم بشكل مختلف.
- كرر الخطوات المذكورة أعلاه عدة مرات (عن طريق التجربة والخطأ) للتأكد من أننا نستخدم الوظائف الصحيحة بالتنسيق الصحيح.
- ضع قائمة مختصرة بأعلى النماذج بناءً على مقاييس الأداء الخاصة بهم.
6. صقل نماذجك من القائمة المختصرة وتحقق من طرق المجموعة
يجب أن تكون هذه إحدى الخطوات الحاسمة كلما اقتربت من قرارك النهائي. يجب أن تشمل النقاط الرئيسية ما يلي:
- ضبط فرط المعلمة باستخدام التحقق المتقاطع.
- استخدم تقنيات الضبط التلقائي مثل البحث العشوائي أو بحث الشبكة للعثور على أفضل تكوين لأفضل طرازاتك.
- مجموعة اختبار من الأساليب مثل مصنف التصويت ، إلخ.
- اختبر النماذج بأكبر قدر ممكن من البيانات.
- بعد الانتهاء من العمل ، استخدم عينة الاختبار التي نضعها جانبًا في البداية للتحقق مما إذا كانت مناسبة بشكل جيد أم لا.
7. قم بتوثيق الكود الخاص بك والتواصل مع الحل الخاص بك
عملية الاتصال متنوعة. عليك أن تضع في اعتبارك جميع أصحاب المصلحة الحاليين والمحتملين. لذلك ، تشمل النقاط الرئيسية ما يلي:
- قم بتوثيق الكود الخاص بك وكذلك نهجك تجاه المشروع بأكمله.
- قم بإنشاء لوحة تحكم مثل voila أو عرض تقديمي ثاقب مع صور توضيحية ذاتيًا.
- اكتب مدونة / تقرير عن كيفية قيامك بتحليل الميزات واختبار التحولات المختلفة وما إلى ذلك. وصف منحنى التعلم الخاص بك (الفشل والطرق الناجحة)
- الانتهاء بالنتيجة الرئيسية والحجم المستقبلي (إن وجد)
8. نشر النموذج الخاص بك للإنتاج والمراقبة
إذا كان مشروعك يتطلب اختبارًا للنشر على بيانات حقيقية ، فيجب عليك إنشاء تطبيق ويب أو واجهة برمجة تطبيقات REST للاستخدام على جميع الأنظمة الأساسية (الويب و Android و iOS). تشمل النقاط الرئيسية (ستختلف حسب المشروع) ما يلي:
- احفظ نموذجك النهائي المدرب في ملف h5 أو مخلل.
- خدمة النموذج الخاص بك مع خدمات الويب ، يمكنك استخدام Flask لتطوير خدمات الويب هذه.
- ربط مصادر الإدخال وإعداد خطوط أنابيب ETL.
- إدارة التبعيات باستخدام pipenv ، docker / Kubernetes (بناءً على متطلبات التحجيم)
- يمكنك استخدام AWS أو Azure أو Google Cloud Platform لنشر الخدمة.
- قم بمراقبة الأداء على البيانات الحقيقية أو لمجرد استخدام الأشخاص لنموذجك مع بياناتهم.
ملحوظة. يمكن تكييف قائمة المراجعة اعتمادًا على مدى تعقيد مشروعك.
تعرف على تفاصيل كيفية الحصول على مهنة رفيعة المستوى من الصفر أو المستوى الأعلى في المهارات والراتب من خلال الحصول على دورات SkillFactory المدفوعة عبر الإنترنت:
- دورة تعلم الآلة (12 أسبوعًا)
- تدريب مهنة علوم البيانات من الصفر (12 شهرًا)
- مهنة التحليلات مع أي مستوى بداية (9 أشهر)
- بايثون لدورة تطوير الويب (9 شهور)