Chúng tôi đã bị mất điện khá nghiêm trọng trong tuần qua ảnh hưởng đến một số dịch vụ đưa chúng tôi ra khỏi SLA với khách hàng. Bây giờ mọi thứ đã được giải quyết, tôi đang tiến hành đánh giá sau khi chết.
Từ đánh giá này, tôi muốn đưa ra một tài liệu nội bộ mô tả sự cố mất điện, ảnh hưởng của nó, phản ứng của chúng tôi và giải pháp. Tôi muốn đưa ra một hình thức khá chuẩn để tái sử dụng trong tương lai. Tôi đã bao gồm những suy nghĩ của tôi dưới đây, nhưng những mục khác nên được bao gồm? Nếu đây là một sự cố liên quan đến an ninh, bạn sẽ thêm gì?
- Tóm tắt Tóm tắt cấp điều hành của sự kiện.
- Dịch vụ bị ảnh hưởng
- Tác động Tác động đến người dùng và SLA của chúng tôi là gì? Có một chi phí về đồng đô la, giao dịch bị bỏ lỡ, mất khách hàng, vv?
- Thời gian ngừng hoạt động Đối với mỗi dịch vụ bị ảnh hưởng nếu có phương sai
- Nguyên nhân Bao gồm nguyên nhân chính và phụ
- Nghị quyết
- Dòng thời gian của sự kiện Thông báo, liên hệ với nhà cung cấp bên ngoài, thông báo của khách hàng, phản hồi, v.v.
- Các vấn đề với phản ứng của chúng tôi Có phải mọi thứ không như kế hoạch với phản ứng của chúng tôi đối với việc ngừng hoạt động? Đúng người thông báo? Các nhà cung cấp đã đáp ứng các nghĩa vụ hợp đồng của họ?
- Các biện pháp phòng ngừa cần thực hiện Làm thế nào để chúng tôi ngăn chặn sự cố mất điện này xảy ra lần nữa hoặc giảm tác động của nó?
- Phương pháp phát hiện Chúng tôi đã phát hiện ra sự cố mất điện này như thế nào và làm thế nào để chúng tôi cải thiện việc phát hiện trong tương lai?
- Thay đổi để thực hiện trong các phản ứng mất điện trong tương lai
Cố gắng giữ bài viết xuống một mục và giải thích, và bài đăng này có thể được cập nhật với các câu trả lời được bình chọn hàng đầu.