Mặc dù không chính xác là một nhiệm vụ tôi được giao, tôi đã phải phục hồi sau thời gian chết bắt buộc.
Tôi từng là SA cho một trang web tài chính khá lớn. Chúng tôi biết các hệ thống của chúng tôi từ trong ra ngoài, đã đăng nhập tập trung và các công cụ tuyệt vời để sàng lọc chúng.
Đột nhiên (tự nhiên rất gần với thời hạn), tất cả các điện thoại di động phát điên với các thông điệp cảnh báo. Kiểm tra xem trang web đã ngừng hoạt động và tất cả nhân viên SA bỏ những gì họ đang làm và bắt đầu điều tra.
Nhật ký Apache vẫn ổn, cơ sở dữ liệu không đưa ra bất kỳ lỗi nào và bộ nhớ cache đã hoạt động tốt. Rất nhiều tài nguyên dự phòng, mạng đã ổn và không có triển khai gần đây.
10 phút sau, tôi phát hiện ra rằng một trong những nhà phát triển đã truy cập vào trang web và thêm die (); trong một mô-đun tối nghĩa liên quan đến việc tạo trang.
Nói cách khác, phần mềm đã làm những gì nó được bảo phải làm và không có thông tin nhật ký nào có thể giúp được.
GM cho công ty điều hành trang này đã cười toe toét và nói rằng anh ấy muốn đồng hồ với chúng tôi. Tôi bảo anh ta vặn vít, không chạm vào các máy chủ sản xuất của tôi, rằng chúng tôi đã có kế hoạch khắc phục thảm họa lớn, nhưng sự bất tài của nhà phát triển của anh ta đảm bảo không có kế hoạch nào được thực hiện.
Nếu anh ấy muốn kiểm tra thời gian phản hồi của chúng tôi, ít nhất anh ấy nên thảo luận với CTO và hỏi liệu anh ấy có thể làm điều đó "một thời gian hôm nay" hay "tuần này". Theo cách đó, không ai có thể tức giận, và chúng tôi sẽ không lãng phí bất cứ lúc nào để tranh cãi về điều đó.
Toàn bộ sự kiện là một trong những sự kiện không chuyên nghiệp nhất mà tôi gặp phải cho đến nay.