Správaoncall
SprávaOnCall
Agenti DevOps pro třídění incidentů a spouštění runbooků
Agenti incidentů začínají příjmem upozornění a telemetrie z observability stacku organizace – např. metrik (Prometheus, Datadog), logů (Splunk, ELK),...
Správaoncall
Správa on-call znamená organizaci lidí, kteří jsou pohotovostně dostupní pro řešení incidentů mimo běžnou pracovní dobu. Zahrnuje plánování směn, rotace, pravidla eskalací a jasné instrukce, kdo kdy a jak odpovídá na výstrahy. Dobrá správa zabezpečí, že vždy existuje někdo kompetentní k rychlé reakci a že zodpovědnosti jsou jasně rozdělené. Součástí jsou i dohody o předávání služeb, dokumentace postupu a přístup k potřebným nástrojům a informacím. Efektivní systém pomáhá snižovat vyhoření, protože dbá na férové rozdělení zátěže a umožňuje pauzy mezi směnami. Dále zahrnuje nastavení kompenzací, pravidel pro dostupnost a školení, aby byli lidé připraveni reagovat správně. Správná správa vede ke kratší době odezvy, menšímu dopadu incidentů a lepšímu pocitu bezpečí u uživatelů i provozovatelů. Nakonec pomáhá budovat spolehlivou službu, protože zajišťuje, že problémy nebudou zůstávat bez povšimnutí jen proto, že nebyl na směně nikdo informovaný.