في كثير من الأحيان تحتاج البيانات إلى المقارنة. على سبيل المثال ، لدينا عدة سلاسل من البيانات من بعض مجالات النشاط البشري (الصناعة ، الطب ، الحكومة ، ...) ، ونريد مقارنة مدى تشابهها ، أو على العكس من ذلك ، كيف تبرز بعض المؤشرات بالمقارنة مع غيرها. لسهولة الإدراك ، دعنا نأخذ بيانات أبسط وعالمية ومحايدة - الارتفاع عند الذبول ووزن العديد من سلالات الكلاب وفقًا لنادي American Kennel Club. يمكن العثور على بيانات متوسط حجم الصخور هنا... أضف إليهم وظيفة random.uniform من مكتبة Python numpy ، وقم بتحويل البوصة إلى سنتيمترات ، ومن الجنيه إلى الكيلوجرامات ، والآن لدينا مجموعة بيانات تبدو واقعية لأحجام الكلاب للعديد من السلالات للعمل معها. في مثالنا ، هذه هي Chihuahuas و Biglies و Rottweilers و English Setters.
أحد المحللين الذي يمكنك استخدامه لمقارنة هذه السلاسل الأربع من الأرقام هو النظر إلى الوسيط. يقسم سلسلة البيانات إلى جزأين: نصف القيم أقل من الوسيط والنصف الآخر أكبر. نجد القيم المتوسطة عن طريق التجميع حسب عمود السلالة باستخدام مكتبة الباندا وتطبيق الوظيفة الوسيطة على البيانات المجمعة. وبالمثل ، يمكنك إلقاء نظرة على الإحصائيات الأخرى: المتوسط (المتوسط) والوضع (الوضع).
ونحن نرى أن نصف شهوهوس التقينا لديهم ارتفاع في الكاهل لا يزيد عن 18 سم، وبيغل هو أعلى من ذلك بكثير - في المنطقة من 41 سم، والقادمة في حجم هي روتويلر واضع اللغة الإنجليزية، والتي تختلف قليلا في الارتفاع: 58 و 63 سم.
الشكل 2. متوسط يذبل قيم الارتفاع لأربعة سلالات من الكلاب.
لكن متوسط واحد فقط لا يكفي للتحليل المقارن للبيانات. يمكنك الحصول على مزيد من المعلومات من خلال النظر إلى أداة مثل مخطط الصندوق والشعيرات باستخدام مكتبة تخطيط Python seaborn. الخط داخل الصندوق هو الوسيط المألوف. يتطابق مستواه على الرسم البياني الموجود على اليمين (انظر الشكل 3) مع ارتفاع العمود المقابل على اليسار. ولكن في الوقت نفسه ، يحتوي المخطط المتأرجح على معلومات إضافية حول كيفية توزيع البيانات داخل الصف: الحد السفلي للمستطيل (المربع) هو الربع الأول (تتجاوز القيمة 25٪ من قيم المتسلسلة) ، والحد الأعلى هو الربع الثالث (تتجاوز القيمة 75٪ من القيم ). وهذه "الشوارب" نفسها عبارة عن شرائح ،يتم رسم الامتداد لأعلى ولأسفل من منتصف المستطيل على أساس النطاق الربيعي ويشير إلى الحدود العلوية والسفلية للجزء المهم من بياناتنا ، باستثناء القيم المتطرفة. لا توجد قيم متطرفة (لم نواجه ضمورًا وكلابًا عملاقة) ، إذا كانت موجودة ، فسيتم عرضها على شكل ملصقات خارج "الشارب".
الشكل 3. مقارنة بين المخططات الشريطية والنطاقات المرسومة لمجموعة البيانات نفسها.
تعطينا حبكة الكمان من نفس المكتبة البحرية مزيدًا من التبصر في بنية البيانات المعنية. يوضح الشكل 4 أدناه الرسوم البيانية الثلاثة ، حيث تكون الصخور في نفس الترتيب في كل مرة ، ويتم الحفاظ على لون الصف المقابل.
الشكل 4. مقارنة مؤامرة الشريط والتأرجح والكمان المخططة لمجموعة البيانات نفسها.
على سبيل المثال ، يتم عرض بيانات Rottweiler باللون الأخضر.
تظهر أوجه التشابه والاختلاف بين مخطط الامتداد (الصندوق ذو الشارب) والرسم البياني للكمان في الشكل 5. أولاً ، أوجه التشابه: (1) كلا الرسمين البيانيين في شكل أو آخر يمثلان 0.25-quantile ، و 0.5-quantile (median) ، و 0.75-quantile. (2) كلاهما هناك وهناك القيم المتطرفة ، والتي تكون قريبة من قيمة النطاق الرباعي الواحد ونصف (IQR) ، المرسومة من الحواف السفلية والعليا للمربع - "الشارب" نفسه لمخطط التأرجح ، والذي يوجد خارجها "القيم المتطرفة".
الفرق هو أن الرسم البياني للكمان يحتوي أيضًا على معلومات حول كيفية توزيع البيانات داخليًا. حدود "الكمان" المركب هي كثافة التوزيع بالتناوب بمقدار 90 درجة. وفي هذه الحالة ، عند تحليل الرسم البياني ، لدينا المزيد من المعلومات: بالإضافة إلى الكميات والقيم التي تصف المسافات الرباعية الأربعة (1.5 + 1 + 1.5) ، على الرسم البياني للكمان ، يمكنك معرفة ما إذا كانت البيانات موزعة بالتساوي أم أن هناك عدة مراكز حيث تكون القيم أكثر غالبا.
الشكل 5. تفسيرات عن تطابق عناصر الرسمين البيانيين: الامتداد والكمان.
يمكن رؤية هذه الفكرة بشكل أكثر وضوحًا في الرسم البياني التالي (الشكل 6) ، حيث تختلف البيانات الخاصة بمجموعتي Rottweilers ، ولكن يتم تحديدها بطريقة تتطابق فيها المتوسطات (الرسم البياني في أقصى اليسار) وحتى أكثر - المخططات المتأرجحة (في المركز) تتطابق أيضًا! ويظهر لنا الرسم البياني للكمان (أقصى اليمين) أن بنية البيانات في الواقع مختلفة بشكل كبير.
الشكل 6. مثال حيث يسمح لنا الرسم البياني للكمان فقط برؤية الاختلافات في البنية الداخلية للبيانات قيد الدراسة.
باستخدام مجموعة K-Means (الكتلة KMeans) من الوحدة النمطية sklearn ، يمكننا تمثيل البيانات المجمعة بصريًا عن طريق رسم مخطط مبعثر باستخدام دالة scatterplot للوحدة البحرية. هنا ، يفصل اللون عن مجموعة تم إنشاؤها بواسطة خوارزمية ML عن مجموعة أخرى ، ويظهر شكل العلامة الأصل الذي ينتمي إلى مجموعة أو أخرى. لم تكن هناك حاجة لتقليل البعد باستخدام PCA أو أي طريقة أخرى ، لأن البيانات في الأصل ثنائية الأبعاد.
كود التجميع والتخطيط التشتيت:
وهكذا ، باستخدام مثال البيانات المتعلقة بالارتفاع عند ذبول عدة سلالات من الكلاب ، تعرفنا على بعض الخصائص الإحصائية للسلسلة العددية وأدوات تصورها. توفر أداة بسيطة مقياسًا واضحًا ، ولكنها لا تقدم صورة كاملة. توفر الأدوات الأكثر تعقيدًا صورة أعمق للبيانات ، ولكن يصعب أيضًا فهمها بسبب الزيادة في كمية المعلومات على الرسم البياني. وهنا من المهم اختيار أداة لمهمة معينة من أجل إيجاد توازن بين الاكتمال المطلوب للمعلومات وسهولة تصورها على الرسم البياني.