Mtta
MTTA
Agenti DevOps pro třídění incidentů a spouštění runbooků
Agenti incidentů začínají příjmem upozornění a telemetrie z observability stacku organizace – např. metrik (Prometheus, Datadog), logů (Splunk, ELK),...
Mtta
MTTA je zkratka pro průměrný čas do potvrzení, tedy dobu, která uplyne od vyvolání upozornění do okamžiku, kdy se někdo na incident poprvé podívá. Měří rychlost reakce týmu na nové incidenty nebo alarmy. Vypočítá se jako součet dob do prvního potvrzení u všech incidentů dělený jejich počtem. Důležité je, že tahle metrika neříká, jak dlouho trvá oprava, ale jak rychle se začne řešit problém. Rychlé potvrzení může zabránit eskalaci, protože umožní dřívější diagnostiku a zavedení dočasných opatření. Vyšší MTTA znamená pomalejší reakce, což často prodlužuje celkový výpadek a zhoršuje zkušenost uživatelů. Zlepšit MTTA lze lepším filtrováním upozornění, inteligentním směrováním alarmů na správné osoby a automatickými notifikacemi. Nastavení priorit a jasné instrukce pro on-call služby také urychlují první krok v řešení. Metrika je užitečná pro měření připravenosti týmu a pro plánování směn a kapacit. Monitoring MTTA pomáhá odhalit slabiny v procesu reakce a tím zkrátit dobu, než začne opravná činnost.