Tôi đang cố gắng hiểu cách tốt nhất để thu thập dữ liệu để bắt đầu đo các số liệu Thời gian sửa chữa trung bình (MTTR) và tôi cần phải xoay quanh việc "rollback" tác động tích cực hay tiêu cực đến MTTR.
cảnh 1
Giả sử đã có giám sát chắc chắn, mã được triển khai gây ra sự cố được phát hiện khá nhanh (MTTI thấp). Tại thời điểm nhận dạng, có hai con đường chính có thể tiến về phía trước (vâng, tôi đang quá đơn giản cho các mục đích thảo luận):
Phục hồi việc triển khai, trả lại sự ổn định nhanh chóng, nhưng không có các tính năng dự định trong sản xuất.
Chuyển tiếp với các thay đổi bổ sung giải quyết sự cố và giữ cho các tính năng dự định tồn tại.
Trong bối cảnh này, MTTR khá thấp, vì sự ổn định của trang web có thể trở lại khá nhanh. Điều đó nói rằng, kết quả dự định của thay đổi không tồn tại và do đó, mã / tính năng / thay đổi vẫn bị kẹt trong quá trình. Nếu mục tiêu là MTTR thấp, nó dường như khuyến khích roll-back như một cơ chế phục hồi.
Kịch bản 2
Trong kịch bản này, MTTR được đo lường nghiêm ngặt bằng cách mất bao lâu mã / tính năng / thay đổi dự kiến để hoạt động đúng trong sản xuất. Ngay cả khi tôi quay lại, cho đến khi thay đổi mã "cố định" của tôi chuyển sang prod, bộ đếm thời gian MTTR vẫn chạy. Trong trường hợp này, MTTR dường như gắn liền với sự ổn định kết quả kinh doanh thay vì chỉ đơn thuần là "hey, mọi thứ ổn định".
Bây giờ, câu trả lời có thể đơn giản như MTTR không được sử dụng như một thước đo trong chân không, mà kết hợp với Tỷ lệ thất bại thay đổi - một MTTR siêu thấp gây ra bởi các lần quay vòng thường xuyên có thể dẫn đến Tỷ lệ thất bại thay đổi cao ngất trời. Điều đó nói rằng, có một cái gì đó dường như không đúng với tôi trong ý tưởng chia rẽ phép đo MTTR khỏi kết quả kinh doanh.
Tôi có thể đang xem xét lại điều này, nhưng tôi tò mò về cách những người khác đang đo MTTR và thời điểm cuối cùng là gì để "phục hồi". Bạn có đang sử dụng nó đơn giản như sự ổn định hay các yếu tố khác quyết định "thu hồi" nghĩa là gì?