Mttr
MTTR
เอเจนต์สำหรับการคัดแยกเหตุการณ์และการดำเนินการรันบุ๊กใน DevOps
เอเจนต์เหตุการณ์เริ่มต้นด้วยการนำเข้าการแจ้งเตือนและข้อมูล telemetry จาก observability stack ขององค์กร – เช่น metrics (Prometheus, Datadog), logs...
Mttr
MTTR ย่อมาจากเวลาที่ใช้เฉลี่ยในการกู้คืนหรือซ่อมแซมระบบหลังเกิดเหตุ เป็นตัวชี้วัดที่บอกว่าโดยรวมแล้วใช้เวลาเท่าไรตั้งแต่เริ่มดำเนินการแก้ปัญหาจนกระทั่งระบบกลับมาทำงานตามปกติ การคำนวณมักเอาเวลารวมที่ใช้ในการกู้คืนทั้งหมดมาหารด้วยจำนวนเหตุการณ์ ทำให้ได้ตัวเลขเฉลี่ยที่สะท้อนความสามารถในการฟื้นตัวของระบบ MTTR มีความสำคัญเพราะมันแสดงถึงความทนทานของบริการและผลกระทบต่อผู้ใช้ ค่าที่ต่ำหมายถึงการฟื้นตัวได้รวดเร็วและบริการสะดุดน้อย ส่วนค่าที่สูงชี้ให้เห็นช่องว่างในการวิเคราะห์สาเหตุ การฝึกซ้อม การมีแผนสำรอง และการปรับปรุงกระบวนการแก้ปัญหาสามารถช่วยลด MTTR ได้ นอกจากนี้ MTTR ควรถูกใช้ควบคู่กับตัวชี้วัดอื่นๆ เพื่อให้เห็นภาพรวมของความเสถียรอย่างครบถ้วน