تحدث مؤلفه ، جوهي رمزي ، عن الطرق الفعالة لفحص النموذج - PSI (مؤشر الاستقرار السكاني) و CSI (مؤشر الاستقرار المميز).

بعد طرح النموذج في الإنتاج ، يجب مراقبته بانتظام للتأكد من أن النموذج لا يزال محدثًا وموثوقًا به. في وقت سابق ، كتبت منشورًا عن التحقق من صحة النموذج ومراقبة أدائه ، حيث أكدت على أهمية هاتين الخطوتين.
الآن دعنا ننتقل إلى الموضوع الرئيسي لهذا المنشور. سوف نتعلم كل شيء عن PSI (مؤشر الاستقرار السكاني) و CSI (مؤشر خصائص الاستقرار) ، والتي تعد من أهم استراتيجيات المراقبة المستخدمة في العديد من المجالات ، لا سيما في مجال تقييم مخاطر الائتمان.
يركز كل من هذين المقياسين (PSI و CSI) على التغييرات في توزيع السكان.
الفكرة الأساسية وراء هذه المقاييس هي أن نموذج التنبؤ يعمل بشكل أفضل إذا كانت البيانات المستخدمة للتدريب لا تختلف كثيرًا عن بيانات التحقق من الصحة / OOT (خارج الوقت) من حيث الظروف الاقتصادية ، والافتراضات الأساسية ، وأسلوب الحملة ، والتركيز ، و إلخ
على سبيل المثال ، قمنا بتطوير نموذج للتنبؤ بمعدل زخم لمستخدمي بطاقات الائتمان في بيئة اقتصادية عادية. ثم بدأنا اختبار هذا النموذج ولكن بالفعل في ظروف الأزمة الاقتصادية. من الممكن في هذه الحالة ألا ينتج النموذج تنبؤًا دقيقًا ، لأنه لن يكون قادرًا على التقاط حقيقة أن توزيع السكان يمكن أن يتغير بشكل كبير في قطاعات الدخل المختلفة (وقد يؤدي ذلك إلى ارتفاع مستوى فعلي من زخم المستخدم). نتيجة لذلك ، نحصل على تنبؤات خاطئة. ولكن نظرًا لأننا نفهم هذا بالفعل الآن ، يمكننا المتابعة للتحقق من التغييرات في توزيع السكان بين وقت التطوير (وقت DEV) والوقت الحالي. سيعطينا هذا فكرة واضحة عما إذا كان يمكن الاعتماد على النتائج المتوقعة للنموذج أم لا.هذا ما تُظهره مقاييس مراقبة PSI و CSI المهمة.
مؤشر الاستقرار السكاني (PSI)
يقيس هذا المقياس مدى تغير المتغير في التوزيع بين عينتين بمرور الوقت. يستخدم على نطاق واسع لرصد التغييرات في خصائص السكان وتشخيص المشاكل المحتملة في أداء النموذج. إذا توقف النموذج عن إجراء تنبؤات دقيقة بسبب التغييرات الكبيرة في توزيع السكان ، فغالبًا ما يكون هذا مؤشرًا جيدًا.
التعريف أعلاه هو أفضل شرح في هذه الورقة البحثية . لقد قدمت أيضًا رابطًا لها في نهاية هذا المنشور.
تم تطوير مؤشر الاستقرار السكاني (PSI) في الأصل لمراقبة التغيرات في التوزيع بين عينات الوقت المخصص وعينات وقت التطوير في تقييم مخاطر الائتمان. حاليًا ، أصبح استخدام مؤشر PSI أكثر مرونة بطبيعته ، مما يسمح للمرء بدراسة التغييرات في كل من التوزيعات المرتبطة بسمات النموذج والسكان ككل ، بما في ذلك متغيرات CSI المستقلة والمستقلة . سننظر في هذا في القسم التالي.
يعكس PSI الاتجاه نحو التغيير في السكان ككل ، بينما يركز CSI عادة على متغيرات النموذج الفردية المستخدمة. يمكن أن يرتبط تغيير
المصدر
في توزيع السكان بما يلي:
- مع التغيرات في البيئة الاقتصادية ، مثل الأزمة الاقتصادية ، COVID-19 ، إلخ ؛
- التغييرات في مصادر البيانات ؛
- التغييرات في السياسة المحلية التي تؤثر بشكل مباشر أو غير مباشر على توزيع السكان ؛
- مشاكل تكامل البيانات التي يمكن أن تؤدي إلى أخطاء في البيانات ؛
- مشاكل في البرمجة / الترميز ، مثل تنفيذ النموذج أو فقدان بعض الخطوات المهمة في الكود لتقييم جودة النموذج.
نظرًا لأن التغيير في التوزيع لا يجب أن يكون مصحوبًا بتغيير في المتغير التابع ، يمكن أيضًا استخدام PSI لفحص التشابه / الاختلاف بين أي عينات. على سبيل المثال ، لمقارنة مستوى التعليم والدخل والحالة الصحية لشخصين أو أكثر من السكان في الدراسات الاجتماعية والديموغرافية.
خطوات لحساب مؤشر PSI ( رابط )
- نقوم بفرز المتغير المقدر بترتيب تنازلي في العينة المقدرة.
- 10 20 ().
- .
- .
- 3 4.
- ( 3 / 4).
- 5 6.
EXCEL PSI:
()
- PSI < 0,1 — . .
- PSI >= 0,1, 0,2 — .
- PSI >= 0,2 — . . / .
يمكنك أيضًا استخدام نطاق التنسيق الشرطي - مناطق حمراء وصفراء وخضراء (منطقة حمراء - كهرمانية - خضراء). الأحمر هو حالة تنبيه يكون فيها PSI أكثر من 20٪ ، والأصفر هو 10-20٪ ، بينما يجب مراقبة النموذج ، والأخضر هو المرحلة التي يعتبر فيها النموذج قابلاً للاستخدام ، أي < عشرة٪.
الآن ، بناءً على حالة الاستخدام ، يتم تعديل هذه الحدود وفقًا لأهمية العمل ، لكن الفكرة تظل كما هي - لتتبع التغييرات في السكان.
مؤشر الاستقرار (CSI)
, . , , .
, .
عندما يتدهور أداء النموذج ، يمكن أن يساعد التحقق من التغييرات في توزيع متغيرات النموذج في تحديد الأسباب المحتملة. كقاعدة عامة ، يتم ذلك بعد التحقق ، ونتيجة لذلك تبين أن مؤشر PSI ليس في المنطقة الخضراء (<0.1 بشكل عام). بهذه الطريقة ، يمكنك التحقق من المتغيرات التي تحدد توزيع السكان بشكل أساسي.
إذا تغير أحد المتغيرات بشكل كبير ، أو إذا تغير أداء عدة متغيرات بشكل طفيف ، فقد يكون الوقت قد حان لإعادة تدريب النموذج أو استبداله بآخر.
عند حساب CSI ، يتم اتخاذ نفس الخطوات عند حساب PSI. الاختلاف الوحيد هو أن القرار يتم اتخاذه بناءً على قيم العينة من مرحلة التصميم لمتغير معين (عن طريق تقسيمها إلى نطاقات وتعيين حدود هذه القيم كعتبات). بعد ذلك ، عند حساب قيم التردد لأي عينة تحقق من الصحة / غير مجدولة (AD) ، يمكنك ببساطة تطبيق نفس الحدود على البيانات وحساب قيم التردد (باستخدام نفس الصيغة التي استخدمناها لحساب PSI).
EXCEL TABLE OF CSI INDEX
الصورة مجاملة من المؤلف
وبالتالي ، يمكن أن تساعد PSI في تحديد الاختلافات في توزيعات السكان ككل إذا كانت كبيرة ، ويمكن أن يساعد CSI في تضييقها أكثر إلى عدد قليل من المتغيرات المسؤولة.
رابط البحث