Một trong những trang web của khách hàng của tôi đã bị sét đánh trực tiếp vào tuần trước (trùng hợp vào thứ Sáu ngày 13! ).
Tôi ở xa trang web, nhưng làm việc với ai đó tại chỗ, tôi phát hiện ra một mô hình thiệt hại kỳ lạ. Cả hai liên kết internet đều ngừng hoạt động, hầu hết các máy chủ đều không thể truy cập được. Phần lớn các thiệt hại xảy ra trong gỗ MDF , nhưng một IDF được kết nối bằng sợi cũng mất 90% các cổng trên một thành viên ngăn xếp chuyển đổi. Đủ các cổng chuyển đổi dự phòng có sẵn để phân phối lại hệ thống cáp ở nơi khác và lập trình lại, nhưng đã có thời gian chết trong khi chúng tôi đuổi theo các thiết bị bị ảnh hưởng ..
Đây là một tòa nhà / kho chứa hàng mới và rất nhiều kế hoạch đã được đưa vào thiết kế phòng máy chủ. Phòng máy chủ chính được sử dụng bởi một UPS trực tuyến chuyển đổi kép APC SmartUPS RT 8000VA , được hỗ trợ bởi một máy phát điện. Có sự phân phối điện phù hợp cho tất cả các thiết bị được kết nối. Sao chép dữ liệu ngoại vi và sao lưu hệ thống đã được thực hiện.
Nói chung, thiệt hại (mà tôi biết) là:
- Thẻ dòng 48 cổng không thành công trên bộ chuyển mạch khung gầm Cisco 4507R-E .
Chuyển đổi Cisco 2960 không thành công trong ngăn xếp 4 thành viên.(Rất tiếc ... cáp xếp chồng lỏng lẻo)- Một số cổng không ổn định trên thiết bị chuyển mạch Cisco 2960.
- Bo mạch chủ HP ProLiant DL360 G7 và nguồn điện.
- Bộ cân bằng liên kết mạng Elfiq .
- Một modem fax Multitech.
- WiMax / ăng-ten internet không dây cố định và kim phun điện.
- Nhiều thiết bị được kết nối PoE (điện thoại VoIP, điểm truy cập Cisco Aironet, camera an ninh IP)
Hầu hết các vấn đề liên quan đến việc mất toàn bộ lưỡi chuyển đổi trong Cisco 4507R-E. Điều này có chứa một số mạng VMware NFS và đường lên đến tường lửa của trang web. Một máy chủ VMWare đã thất bại, nhưng HA đã chăm sóc cho VM khi kết nối mạng lưu trữ được khôi phục. Tôi đã buộc phải khởi động lại / chu kỳ năng lượng một số thiết bị để xóa trạng thái năng lượng sôi nổi. Vì vậy, thời gian để phục hồi là ngắn, nhưng tôi tò mò về những bài học nên được học ...
- Những biện pháp bảo vệ bổ sung nào cần được thực hiện để bảo vệ thiết bị trong tương lai?
- Làm thế nào tôi nên tiếp cận bảo hành và thay thế? Cisco và HP đang thay thế các mặt hàng theo hợp đồng. Bộ cân bằng liên kết WAN Elfiq đắt tiền có một bản giới thiệu trên trang web của họ về cơ bản nói rằng "quá tệ, sử dụng một bộ bảo vệ tăng mạng ". (có vẻ như họ mong đợi loại thất bại này)
- Tôi đã ở trong CNTT đủ lâu để gặp phải thiệt hại do bão điện trong quá khứ, nhưng với tác động rất hạn chế; ví dụ: giao diện mạng của PC giá rẻ hoặc phá hủy các thiết bị chuyển mạch mini.
- Có bất cứ điều gì khác tôi có thể làm để phát hiện thiết bị có khả năng bị bong tróc không, hay đơn giản là tôi phải chờ hành vi kỳ quặc xuất hiện?
- Có phải tất cả chỉ là sự xui xẻo, hay thứ gì đó thực sự cần được tính đến trong việc khắc phục thảm họa?
Với đủ $$$, bạn có thể xây dựng tất cả các loại dự phòng vào một môi trường, nhưng đâu là sự cân bằng hợp lý của thiết kế phòng ngừa / chu đáo và sử dụng hiệu quả tài nguyên ở đây?