Mttr
MTTR
Agenter för incidentprioritering och runbook-exekvering inom DevOps
Incidentagenter börjar med att ta in larm och telemetri från en organisations observerbarhetsstack – t.ex. mätvärden (Prometheus, Datadog), loggar...
Mttr
MTTR står för genomsnittlig tid för återställning och är ett mått på hur lång tid det tar att få en tjänst eller utrustning i drift igen efter ett fel. Tiden innefattar ofta upptäckt av felet, diagnos, åtgärd och verifiering att allt fungerar som det ska. Måttet används för att följa hur snabbt ett team klarar av att hantera incidenter och hur motståndskraftigt ett system är. Genom att mäta MTTR kan man se om förändringar faktiskt leder till snabbare återställning. En låg MTTR betyder vanligtvis mindre påverkan på användare och bättre uppfyllelse av serviceavtal. Organisationer använder det för att sätta mål, jämföra leverantörer och prioritera investeringar i övervakning, reservdelar och automatisering. MTTR kan förbättras genom bättre övervakning, förberedda återställningsskript, tydliga rutiner och utbildade team. Samtidigt bör man komplettera med median och percentiler eftersom ett medelvärde kan dölja sällsynta men mycket långa avbrott. Tydlighet kring vad som räknas in i tiden är också viktigt, till exempel om väntetid på delar eller godkännanden ingår. Sammanfattningsvis är MTTR ett praktiskt verktyg för att göra tjänster mer robusta och användarvänliga.