Sorunu müşteri sizden önce fark ediyor
Sistem yavaşladığında ya da çöktüğünde ilk haberi kullanıcıdan, müşteriden ya da gece gelen telefondan alıyorsanız — problem zaten yaşanmış demektir. İzleme yoksa, görünürlük de yoktur.
Sunucudan ağ cihazına, uygulamadan iş servisine kadar her bileşenin sağlığını tek yerden izleyin. Eşik aşılmadan uyarı, on-call rotasyonu, tam tarihsel metrik ve SLA raporu. Şirket içi sunucuda çalışır; izleme verisi dışarı çıkmaz.
Aşağıdaki altı maddeden en az ikisini yaşıyorsanız, sistem değil — görünürlük eksiktir.
Sistem yavaşladığında ya da çöktüğünde ilk haberi kullanıcıdan, müşteriden ya da gece gelen telefondan alıyorsanız — problem zaten yaşanmış demektir. İzleme yoksa, görünürlük de yoktur.
Disk %95, RAM tükeniyor, SSL sertifikası üç gün sonra geçersiz. Eşik uyarısı olmadığında bu sessiz sayaçlar bir gece yarısı kesintiye dönüşür.
Ağ bir araçta, sunucu başka panoda, uygulama üçüncü bir yerde. Bütünsel sağlık görünmez; bir arıza anında kök neden aramak ekranlar arası saatler alır.
Nöbet listesi Excel’de, eskalasyon kuralı yok. Kritik alarm yanlış kişiye gider, telefonu sessizdedir ya da hiç gitmez. Müdahale, mesai başlayınca başlar.
Geçmiş metrik tutulmadığında performans düşüşünün ne zaman başladığı, trendin nereye gittiği, kapasitenin ne zaman dolacağı yanıtsız kalır.
Müşteriye ya da yönetime verilen erişilebilirlik taahhüdü ölçülmüyor. Kesinti süreleri ve sebepleri raporlanamıyor; söz, sayıyla desteklenemiyor.
Cihazın keşfinden alarmın doğru kişiye ulaşmasına kadar her adım sistem içinde — otomatik, zaman damgalı, izlenebilir.
Ağdaki sunucu, switch, router, firewall ve servisleri otomatik keşfeder; izlenecekleri envantere alır. Tek tek manuel tanımlama derdi yok.
SNMP, ICMP, HTTP(S), TCP, agent ve API ile metrik toplar: CPU, RAM, disk, ağ trafiği, servis yanıt süresi, uygulama sağlığı.
Statik eşik + öğrenen taban çizgisi. Sabit sınır beklemeden, "normal" davranıştan sapma da alarma dönüşür.
Alarm olay duvarına düşer; on-call rotasyonu ve eskalasyonla doğru kişiye ulaşır — mail, SMS, Slack, Teams.
Canlı pano, tarihsel grafik ve SLA/uptime raporu. NOC ekranından yönetici özetine kadar her görünüm.
Altyapı görünürlüğünü, erken uyarıyı ve erişilebilirlik kanıtını işin temeline koymak isteyen kurumlar için.
E-ticaret, fintech, üretim hattı, SaaS sağlayıcı. Her dakika kesinti ölçülebilir bir maliyettir; erken uyarı doğrudan paraya dönüşür.
Her sunucuyu, her servisi elle kontrol edemeyecek ekipler için yorulmayan otomatik bir göz. İnsan sadece alarm geldiğinde devreye girer.
On-prem + şube + hibrit. Onlarca sunucu, birden çok lokasyon. Tek panodan merkezi görünürlük olmadan bütünü görmek imkânsız.
Sözleşmede uptime taahhüdü olan kurumlar. Erişilebilirliği ölçmek, kesintileri belgelemek ve dönemsel raporlamak zorunda olanlar.
Bulut SaaS izleme yerine kendi sunucusunda çalışan çözüm isteyenler. Metrik ve topoloji verisi şirket içinde kalır; üçüncü tarafa gitmez.
Sürekli yangın söndürmekten erken uyarıya geçmek isteyen ekipler. Hedef: problem kullanıcıya yansımadan görülsün ve kapatılsın.
Erken tespit + net kök neden + otomatik eskalasyon, kesinti süresini ve etkisini küçültür. Rakamlar tipik kurulum ortalamasıdır; gerçek kazanım altyapı ve ekip olgunluğuna göre değişir.
Her özellik bir somut körlüğün karşılığı. Süslemek için değil, görmek için var.
SNMP, ICMP, HTTP(S), TCP, agent ve API. Sunucu, switch, router, firewall, uygulama ve iş servisi — hepsi tek yerden izlenir.
Ağı tarar, yeni cihaz ve servisi bulur, envantere ekler. Altyapı büyüdükçe izleme kendiliğinden kapsar; manuel tanımlama yükü düşer.
Statik eşik ile öğrenen taban çizgisini birleştirir. "Normal"den sapma, sabit bir sınır aşılmasa bile alarma dönüşür.
Tüm aktif alarmlar tek ekranda: önem derecesi, sahiplenme, susturma. On-call rotasyonu ve eskalasyon kurallarıyla doğru kişiye ulaşır.
Mail, SMS, Slack, Microsoft Teams ve webhook. Doğru alarm, doğru önem derecesinde, doğru kanaldan doğru kişiye gider.
Uzun süreli metrik saklama. Geçmişe dönük grafik, kapasite trendi ve "ne zaman başladı?" sorusunun net cevabı.
Ekip ve servis bazlı panolar: duvara asılan NOC ekranı, yönetici özeti, tek servisin derin görünümü — sürükle-bırak ile.
Servis bazlı erişilebilirlik yüzdesi, toplam kesinti süresi ve sebebi, MTTR. Müşteri ve yönetim için hazır rapor.
Oranlar tipik kurulum ortalamasıdır. Sizinki altyapı ve ekibin disiplinine göre değişir.
Anlık tespit + pano üzerinden net kök neden + otomatik eskalasyon. Arıza fark edilip kapatılana kadar geçen süre belirgin düşer.
Eşik aşılmadan uyarı; problem çöküşe dönmeden müdahale. Disk, bellek, sertifika sürprizleri planlı bakıma çevrilir.
Kullanıcı şikayetini beklemeden hareket. Reaktif yangın söndürmeden erken uyarı kültürüne geçiş.
Ağ, sunucu, uygulama, servis — dağıtık araçlar yerine tek bütünsel sağlık görünümü. Kök neden aramak dakikalara iner.
Erişilebilirlik ölçülür ve raporlanır. Müşteriye ve yönetime verilen söz, sayılarla desteklenir.
Tarihsel trend ile "ne zaman büyümeli?" sorusu tahminle değil veriyle yanıtlanır. Yatırım doğru zamanda yapılır.
Her senaryo gerçek bir operasyon anıdır — bir grafik değil, zamanında verilmiş bir karar.
"Veritabanı sunucusunun diski son üç haftadır beklenenden hızlı doluyor."
Sonuç: Eşik %80’de uyarı düşer; trend grafiği dolma hızını ve tahmini doluş tarihini gösterir. Gece yarısı çöküş yerine planlı kapasite genişletmesi yapılır.
"İzmir şubesinin internet bağlantısı kesildi, merkez ekip saatler sonra fark etti."
Sonuç: ICMP/SNMP ile hat anında "down" işaretlenir; on-call’a alarm gider. Kullanıcı merkezi aramadan önce müdahale başlamış olur.
"Web uygulaması bazen çok yavaş yanıt veriyor ama sebebi bir türlü bulunamıyor."
Sonuç: HTTP yanıt süresi sürekli izlenir; anomali alarmı tetiklenir. Pano, CPU/veritabanı/ağ korelasyonuyla kök nedeni dakikalar içinde gösterir.
"Müşteriye %99.9 uptime taahhüt ettik; her ay sonu rapor istiyor."
Sonuç: Sistem aylık erişilebilirlik yüzdesini, toplam kesinti süresini ve sebeplerini otomatik derler; PDF rapor olarak teslime hazır gelir.
Dönem içi her an çalıştırılabilir. Excel ve PDF dışa aktarım. Yönetimin ve müşterinin sorduğu sorulara hazır cevaplar.
Servis ve cihaz bazlı uptime yüzdesi, hedefe göre durum. Aylık/çeyreklik/yıllık.
Ne zaman, ne kadar sürdü, hangi sebeple. Kesinti sayısı ve MTTR dağılımı.
CPU/RAM/disk/ağ uzun dönem trendi ve doluş projeksiyonu. Yatırım zamanlaması.
En çok hangi kaynak alarm üretiyor; gürültü/önem dağılımı. Eşik ayarı için içgörü.
Yanıt süresi, gecikme, hata oranı — servis bazlı dönemsel performans.
Kim kaç alarm aldı, ortalama yanıt süresi. Nöbet yükünün ekibe dağılımı.
İzlemek istediğiniz sistemleri, kritik servisleri ve alarm kanallarını birlikte konuşalım. Kurulum, eşik tasarımı ve on-call kurgusu — 30 dakikalık bir keşif görüşmesiyle başlar.