معالجة البيانات

مرحبا! أنا مطور ويب وأهتم بالتعلم الآلي لعدة سنوات حتى الآن. لأنه في متنزه عملي اليومي يجب أن أقوم بحل المشكلات الأقل إثارة للاهتمام بالنسبة لي ، والتي لا تتعلق بالتعلم الآلي ، من وقت لآخر أنسى ما قرأته أو استخدمته. لإنشاء مذكرة لنفسي وتعزيز معرفتي ومشاركتها مع الآخرين ، قررت كتابة هذه السلسلة من المقالات حول التعلم الآلي. سأبدأ بمعالجة البيانات المسبقة.



في هذه المقالة سوف أتحدث عن المشاكل التي تحدث مع البيانات ، وكيفية حلها ، وكذلك عن الطرق الأكثر استخدامًا لإعداد البيانات قبل إدخالها إلى نماذج مختلفة.



القفزات



ضع في اعتبارك مجموعة البيانات التالية. لقد توصلت إليه بصدق ، وسأشير إليه في هذا المقال.



هوية شخصية اسم الانضباط الرياضي بلد سنة ميلاد اللاعب وزن الرياضي ميدالية
1 إيفان تجديف الاتحاد الروسي 1985 265 ب
2 ملاكمة بريطانيا العظمى 1986 54 س
3 كيم المصارعة اليونانية الرومانية كوريا الشماليه 1986 93 جي
4 أوليغ المصارعة اليونانية الرومانية 1984 ب
خمسة بيدرو تجديف البرازيل 97 ن
6 فاليري تجديف الاتحاد الروسي 2004 97 ن


, . . — , . , .



, "" , . , , .



— , - , . , "" "" . , , - - . : , , , .



. , . .



, . , . : , . — , .





:



  • "".


ID
2 1986 54 S


  • .


ID
4 - 1984 B




, :



  • .


ID
4 - 1984 (265 + 54 + 93 + 97 + 97) / 5 = 121.2 B


, " " 1 .



  • . , .


ID
4 - 1984 (54, 93, 97, 97, 265) = 97 B




, . , , . , "" . — ( ).



ID
1 1985 265 B


, , , , . :



أناسر=س3-س1،



س1 — — , 25% . س3 — — , 75% .



, , , : :



[س1-1.5أناسر،س3+1.5أناسر]



.





— . , [0, 1]. , . , . (, , ) .



. , , . , .



xنهث=xالد-xمأنانxمأx-xمأنان



Z-. Z- :



(-3σ[X]،3σ[X])،



σ[X] — X.



Z- .



xنهث=xالد-م[X]σ[X]



M[X] — X.



, Z- , .



One-hot encoding



. . , " " - . : . . . ( ).



, , ? . , " " 1, "" — 2. . , , . , . .



, , . , "" 4 :



ID _ _ _ _
1 1 0 0 0
2 0 1 0 0
3 0 0 0 1 0
4 1 0 0 0
5 0 0 0 1
6 1 0 0 0


, , .





, . . , , . . , .



شكرا على القراءة أو التصفح إلى هنا. لم أصف جميع طرق المعالجة المسبقة ، وهذه المقالة بالكاد مفيدة لعلماء البيانات المحترفين. ومع ذلك ، إذا كنت مبتدئًا ولا تعرف ماذا تفعل ببياناتك ، فيمكنك العودة بأمان هنا. حظا سعيدا في التعلم والمهام الشيقة!



قائمة المصادر



أنا لست عالماً وهذا المقال لا يدعي أنه علمي. لذلك ، لن أقوم بإعداد مصادر وفقًا لـ GOST. من فضلك اعذرني على هذا.



  1. محاضرة الدورة من Yandex and HSE "مقدمة في التعلم الآلي" على المؤشر.
  2. التوحيد القياسي ، أو يعني الإزالة وقياس التباين - وثائق مكتبة sklearn
  3. مهام إعداد البيانات للتعلم الآلي المتقدم - Microsoft



All Articles