تحديد الانحرافات في بنية الخدمات المصغرة - نظرة عامة على DevOps وأدوات SRE

مرحبا. اليوم نود التحدث عن اكتشاف الحالات الشاذة في بيئة الخدمات المصغرة. هذا المنشور هو ملخص موجز لخطابنا الذي استمر 40 دقيقة في مؤتمر DevOps Live 2020 عبر الإنترنت ، ولكي لا نكتب قراءة طويلة ، قررنا التركيز على نظرة عامة على أدوات الكشف عن الانحرافات في توزيع القيم المترية لأتمتة مراقبة الخدمات المصغرة ، والتي يمكن استخدامها بسرعة من قبل أي فريق ...







أصبح موضوع الكشف عن الحالات الشاذة وثيق الصلة الآن ، لأنه مع الانتقال إلى الخدمات المصغرة لـ SRE و DevOps ، زادت بشكل كبير أولوية المهام المتعلقة بتحويل التنبيهات إلى إشارة ذات مغزى ، وتقليل MTTD وتبسيط تكوين التنبيهات في مراقبة البيئات الموزعة.













, , , .

"" .







, , .







?

?







, :







  • latency ;
  • ;
  • .


"" , - , .







, :







  • ;
  • , ;
  • «» , .


, , , ?







:







  • c ;
  • APM ;
  • as a Service.


.









, Python R.







Prometheus , time series .

recording rules, , .







, , , ( " ").







, , z- (z-score) — , , .







http_requests_total, :







#    
- record: job:http_requests:rate5m
  expr: sum by (app) (rate(http_requests_total[5m]))

      
      





:







# average -   
- record: job:http_requests:rate5m:avg_over_time_1w
expr: avg_over_time(job:http_requests:rate5m[1w])

# stddev -  
- record: job:http_requests:rate5m:stddev_over_time_1w
expr: stddev_over_time(job:http_requests:rate5m[1w])

# z-
(job:http_requests:rate5m - job:http_requests:rate5m:avg_over_time_1w
) /  job:http_requests:rate5m:stddev_over_time_1w
      
      





شذوذ بسيط







( , latency) — , , .







— .







, .







.







, — z-.







التنبؤ الموسمي







recording rules Prometheus .







Prometheus — PAD



Prometheus Anomaly Detector (PAD), Red Hat, , .







PAD Prometeheus , PAD recording rules, , , Prophet, .







هندسة PAD







PAD Grafana .







هندسة PAD







, proof of concept.







APM



(Application Performance Monitoring) AIOps — , , .







, .







New Relic



New Relic baseline ( ) — , EUM, .







— baseline, ( , , ).

, , , , baseline.







, .







بقايا جديدة - تحديد سياسة التنبيه على الانحراف عن خط الأساس







2020 — New Relic Applied Intelligence (AI).







New Relic AI KPI .







/ .







New Relic Applied Intelligence - اكتشاف الحالات الشاذة في المقاييس عبر تطبيقات متعددة







AppDynamics



AppDynamics APM baseline KPI- .







baseline , , (, ) , baseline.







AppDynamics - الإعداد الأساسي







, , health rule .







, baseline health rule.







AppDynamics - وضع سياسة للتنبيه على الانحراف عن خط الأساس







Dynatrace



Dynatrace " " , .







Dynatrace - إشارة انخفاض حركة المرور







:







  • KPI


.







Dynatrace - الإعداد







Dynatrace - الإعداد







Instana



Instana " " 230 "" , KPI .







latecy, error rate, traffic ( ).







Instana - قائمة القواعد التي تستخدم خوارزمية EDM للكشف عن الحالات الشاذة







E-Divisive with Medians (EDM).







Instana - اكتشفت القاعدة شذوذًا في المقياس







, , baseline.

"" "" , .







baseline — .







EUM.







Instana - مُنشئ سياسة التنبيه استنادًا إلى مقاييس EUM الأساسية







as a Service



APM , Prometheus , , SaaS .







Azure Metric Advisor



Microsoft — Azure Metric Advisor .







, , e-commerce.

(SQL Server, ElasticSearch, InfluxDB, MongoDB, MySQL, PostgreSQL ), Prometheus .







واجهة Azure Metric Advisor







Anodot



— Prometheues -.







-, SRE .







e-commerce, gaming .







أنودوت







AnomalyIO



, , , , InfluxDB.







, InfluxDB, , .







أنودوت









  • .
  • – , .
  • Prometheus — .
  • APM AIOps, .


.








All Articles