Sunucu izleme araçları yüzlerce metrik toplar. Ama hepsine alarm kurarsanız 'alarm yorgunluğu' başlar ve gerçek sorunları kaçırırsınız. Öncelik altın metriklere verilmeli.
Dört altın metrik
- Gecikme (Latency), istekler ne kadar sürüyor
- Trafik (Traffic), ne kadar yük geliyor
- Hata oranı (Errors), başarısız isteklerin yüzdesi
- Doygunluk (Saturation), kaynaklar ne kadar dolu (CPU, RAM, Disk I/O)
Alarm kuralları
Her metriğe değil, kullanıcı deneyimine etki eden durumlara alarm kurun. Örneğin CPU %90 alarm değil, 'P95 gecikmesi 2 saniyenin üzerine çıkarsa' alarmı. Kullanıcı hissedecek mi? Cevabı evetse alarm koyun.
Araç önerileri
Kurumsal ölçekte Datadog, Dynatrace, New Relic öne çıkıyor. Açık kaynak tarafında Prometheus + Grafana + Alertmanager üçlüsü endüstri standardı. Zabbix ve Nagios, altyapı odaklı klasik izleme için hâlâ iyi seçenekler.
Okumaya devam edin