Đánh giá thiệt hại thiết bị sau khi bị sét đánh - Tôi có nên lên kế hoạch nhiều hơn không?


55

Một trong những trang web của khách hàng của tôi đã bị sét đánh trực tiếp vào tuần trước (trùng hợp vào thứ Sáu ngày 13! ).

Tôi ở xa trang web, nhưng làm việc với ai đó tại chỗ, tôi phát hiện ra một mô hình thiệt hại kỳ lạ. Cả hai liên kết internet đều ngừng hoạt động, hầu hết các máy chủ đều không thể truy cập được. Phần lớn các thiệt hại xảy ra trong gỗ MDF , nhưng một IDF được kết nối bằng sợi cũng mất 90% các cổng trên một thành viên ngăn xếp chuyển đổi. Đủ các cổng chuyển đổi dự phòng có sẵn để phân phối lại hệ thống cáp ở nơi khác và lập trình lại, nhưng đã có thời gian chết trong khi chúng tôi đuổi theo các thiết bị bị ảnh hưởng ..

Đây là một tòa nhà / kho chứa hàng mới và rất nhiều kế hoạch đã được đưa vào thiết kế phòng máy chủ. Phòng máy chủ chính được sử dụng bởi một UPS trực tuyến chuyển đổi kép APC SmartUPS RT 8000VA , được hỗ trợ bởi một máy phát điện. Có sự phân phối điện phù hợp cho tất cả các thiết bị được kết nối. Sao chép dữ liệu ngoại vi và sao lưu hệ thống đã được thực hiện.

Nói chung, thiệt hại (mà tôi biết) là:

  • Thẻ dòng 48 cổng không thành công trên bộ chuyển mạch khung gầm Cisco 4507R-E .
  • Chuyển đổi Cisco 2960 không thành công trong ngăn xếp 4 thành viên. (Rất tiếc ... cáp xếp chồng lỏng lẻo)
  • Một số cổng không ổn định trên thiết bị chuyển mạch Cisco 2960.
  • Bo mạch chủ HP ProLiant DL360 G7 và nguồn điện.
  • Bộ cân bằng liên kết mạng Elfiq .
  • Một modem fax Multitech.
  • WiMax / ăng-ten internet không dây cố định và kim phun điện.
  • Nhiều thiết bị được kết nối PoE (điện thoại VoIP, điểm truy cập Cisco Aironet, camera an ninh IP)

Hầu hết các vấn đề liên quan đến việc mất toàn bộ lưỡi chuyển đổi trong Cisco 4507R-E. Điều này có chứa một số mạng VMware NFS và đường lên đến tường lửa của trang web. Một máy chủ VMWare đã thất bại, nhưng HA đã chăm sóc cho VM khi kết nối mạng lưu trữ được khôi phục. Tôi đã buộc phải khởi động lại / chu kỳ năng lượng một số thiết bị để xóa trạng thái năng lượng sôi nổi. Vì vậy, thời gian để phục hồi là ngắn, nhưng tôi tò mò về những bài học nên được học ...

  • Những biện pháp bảo vệ bổ sung nào cần được thực hiện để bảo vệ thiết bị trong tương lai?
  • Làm thế nào tôi nên tiếp cận bảo hành và thay thế? Cisco và HP đang thay thế các mặt hàng theo hợp đồng. Bộ cân bằng liên kết WAN Elfiq đắt tiền có một bản giới thiệu trên trang web của họ về cơ bản nói rằng "quá tệ, sử dụng một bộ bảo vệ tăng mạng ". (có vẻ như họ mong đợi loại thất bại này)
  • Tôi đã ở trong CNTT đủ lâu để gặp phải thiệt hại do bão điện trong quá khứ, nhưng với tác động rất hạn chế; ví dụ: giao diện mạng của PC giá rẻ hoặc phá hủy các thiết bị chuyển mạch mini.
  • Có bất cứ điều gì khác tôi có thể làm để phát hiện thiết bị có khả năng bị bong tróc không, hay đơn giản là tôi phải chờ hành vi kỳ quặc xuất hiện?
  • Có phải tất cả chỉ là sự xui xẻo, hay thứ gì đó thực sự cần được tính đến trong việc khắc phục thảm họa?

Với đủ $$$, bạn có thể xây dựng tất cả các loại dự phòng vào một môi trường, nhưng đâu là sự cân bằng hợp lý của thiết kế phòng ngừa / chu đáo và sử dụng hiệu quả tài nguyên ở đây?


3
Một số câu trả lời kỹ thuật tốt dưới đây, nhưng theo kinh nghiệm của tôi, không có gì vượt qua một chính sách bảo hiểm tốt. Nghĩa đen, một chính sách bảo hiểm. Chắc chắn, nó không giúp tránh được vấn đề và nó không ngăn khách hàng la hét với bạn, nhưng nó giúp thay thế các thiết bị thất bại mà nhà cung cấp sẽ không chạm vào.
Mark Henderson

@MarkHenderson Bảo hiểm sắp thông qua ... nhưng đã 6 tuần và một số vấn đề nhỏ đang được khắc phục.
ewwhite

Câu trả lời:


23

Một vài công việc trước đây, một trong những trung tâm dữ liệu cho nơi tôi đang làm việc là một tầng dưới một tầng trên không rất lớn. Vật phẩm kim loại lớn, mỏng này là thứ cao nhất trong khu vực và bị sét đánh sau mỗi 18 tháng hoặc lâu hơn. Bản thân trung tâm dữ liệu được xây dựng vào khoảng năm 1980, vì vậy tôi sẽ không gọi nó là thứ hiện đại nhất xung quanh, nhưng họ đã có kinh nghiệm lâu năm đối phó với thiệt hại sét (bảng mạch nối tiếp phải được thay thế mỗi lần , đó là một thử nghiệm nếu comms bảng nằm trong một hệ thống chưa có bộ phận mới nào được sản xuất trong 10 năm).

Một điều được đưa ra bởi bàn tay cũ là tất cả dòng điện giả đó có thể tìm đường xung quanh bất cứ thứ gì, và có thể lan truyền trong một mặt bằng chung một khi nó đi vào. Và có thể đi vào từ những khoảng trống không khí. Sét là một trường hợp đặc biệt, trong đó các tiêu chuẩn an toàn thông thường không đủ tốt để ngăn chặn các cung và sẽ đi xa như nó có năng lượng. Và nó có rất nhiều. Nếu có đủ năng lượng, nó có thể vòng cung từ lưới trần treo (có lẽ một trong các dây treo được treo từ một vòng có kết nối với dầm tòa nhà trong xi măng) lên đỉnh của giá đỡ 2 cột và từ đó vào trong mạng goodies.

Giống như tin tặc, chỉ có rất nhiều bạn có thể làm. Tất cả các nguồn cấp điện của bạn đều có bộ ngắt trên chúng để kẹp các điện áp giả, nhưng thiết bị mạng điện áp thấp của bạn hầu như không bao giờ thực hiện và đại diện cho một đường dẫn chung cho một dòng điện cực kỳ mạnh mẽ để định tuyến.


Phát hiện bộ dụng cụ dễ bị bong tróc là điều mà tôi biết cách thực hiện trên lý thuyết, nhưng không phải trong thực tế. Có lẽ cách tốt nhất của bạn là đặt thiết bị nghi ngờ vào một khu vực và cố tình đưa nhiệt độ trong phòng lên cao cấp của Phạm vi hoạt động và xem điều gì sẽ xảy ra. Chạy một số thử nghiệm, tải cái quái đó ra khỏi nó. Để nó ở đó trong một vài ngày. Ứng suất nhiệt tăng thêm đối với bất kỳ thiệt hại điện nào có sẵn có thể loại bỏ một số quả bom hẹn giờ.

Nó chắc chắn đã rút ngắn tuổi thọ của một số thiết bị của bạn, nhưng tìm ra thiết bị nào khó. Mạch điều hòa năng lượng bên trong nguồn cung cấp năng lượng có thể đã làm hỏng các bộ phận và đang cung cấp năng lượng bẩn cho máy chủ, điều mà bạn chỉ có thể phát hiện thông qua việc sử dụng các thiết bị chuyên dụng được thiết kế để kiểm tra nguồn cung cấp điện.


Sét đánh không phải là thứ tôi đã xem xét cho DR ngoài việc có một DC trong một cơ sở có một cột thu lôi khổng lồ trên mái nhà . Nói chung, một cuộc đình công là một trong những điều xảy ra không thường xuyên, nó bị xáo trộn dưới 'hành động của chúa' và di chuyển theo.

Nhưng ... bạn đã có một cái bây giờ. Nó cho thấy cơ sở của bạn đã có điều kiện đúng ít nhất một lần. Đã đến lúc nhận được đánh giá về việc cơ sở của bạn được cung cấp các điều kiện phù hợp và kế hoạch phù hợp như thế nào. Nếu bây giờ bạn chỉ nghĩ về tác động của DR của sét, tôi nghĩ điều đó phù hợp.


Tôi đã đi tại chỗ ngày hôm qua để đánh giá. Lộn xộn. Tôi đã sửa chữa công tắc khung gầm và kiểm tra thiệt hại của một số máy chủ. Có bất kỳ cơ hội nào mà ăng-ten WiMax / Cố định không dây trên mái nhà là điểm vào không? Mọi thứ trên đường đi của nó đều bị ảnh hưởng:Antenna->PoE injector->WAN link balancer->Firewall->Dead Cisco 4507 linecard
ewwhite

1
Nghe có vẻ ... khá có thể xảy ra.
mfinni

1
@ewwhite Nghe có vẻ rất có thể. Thiệt hại khi DC cũ bị tấn công là rất giống nhau.
sysadmin1138

Tôi muốn thêm một chút khôn ngoan vào bài đăng của sysadmin1138 (xin lỗi tôi chưa được phép bình luận, không muốn đây là câu trả lời) ... Các chốt nối đất trên dây nguồn là vì sự an toàn của CON NGƯỜI chứ không phải thiết bị của bạn .. Trong các văn phòng nhỏ; Tôi giữ các máy quan trọng khỏi mặt đất (hộp gỗ, thảm cao su) và các đầu nối / bộ điều hợp không nối đất UPS-> Wall. Tôi chắc chắn OSHA ghét nó nhưng máy tính thích nó. Nó cũng có ích khi gird được khử năng lượng và tái tạo năng lượng vì những đợt tăng đó có thể giết chết bất cứ thứ gì. Tôi đang ở trong một tòa nhà thì một chiếc UPS / Biến tần Libert rất lớn đã thổi và phải giải thích cho công nghệ của họ về cách thức tăng đột biến (
sirmonkey

7

Tôi đã suy nghĩ về câu hỏi này vì nó gần đây đã được chỉnh sửa trở lại đầu trang.

Tôi tự do quy định rằng, đối với những người như sysadmin1138, những người phải đối phó với các cài đặt có sức hấp dẫn cao đối với các vụ sét đánh lớn trên mái nhà DC, kế hoạch dự phòng cụ thể cho một cuộc đình công lớn có ý nghĩa. Nhưng đối với hầu hết chúng ta, đây là một tình huống một lần và tôi nghĩ rằng một câu trả lời thường phù hợp hơn với phần còn lại của chúng ta có thể có một số giá trị.

Có thể tưởng tượng tất cả các loại mối đe dọa cốt truyện phim ; các kịch bản chắc chắn có thể xảy ra, chắc chắn sẽ làm giảm hoạt động kinh doanh của bạn nếu họ làm như vậy, nhưng không có lý do gì để nghĩ rằng có bất kỳ khả năng cao nào xảy ra. Bạn biết loại điều; máy bay tấn công / tia sét / kho dầu gần đó phát nổ / bất kỳ kịch bản rủi ro hợp lý nào khác nhưng có nền tảng.

Mỗi trong số này có một kế hoạch giảm thiểu cụ thể có thể được đưa ra, nhưng tôi sẽ đề nghị rằng - điều chỉnh quy định của tôi ở trên - không có ý nghĩa kinh doanh nào để làm như vậy . Vì Schneier đang cố gắng chỉ ra trong cuộc cạnh tranh được liên kết ở trên, chỉ vì bạn có thể tưởng tượng điều gì đó khủng khiếp xảy ra không làm cho nó trở thành một mối đe dọa đối với kế hoạch cụ thể nào đáng giá, hoặc thậm chí là mong muốn. Có gì không có ý nghĩa kinh doanh tốt là một mục đích chung, cũng như các tài liệu, kiểm tra kế hoạch kinh doanh liên tục.

Bạn nên tự hỏi chi phí kinh doanh của việc mất hoàn toàn trang web trong các khoảng thời gian khác nhau (ví dụ: 24h, 96h, một tuần, một tháng) và cố gắng định lượng khả năng của mỗi lần xảy ra. Nó phải là một phân tích chi phí kinh doanh trung thực, được mua bởi tất cả các cấp của doanh nghiệp. Tôi đã làm việc tại một trang web nơi con số được chấp nhận chung cho thời gian chết là 5,5 triệu bảng / giờ (và đó là 20 năm trước, khi năm triệu quid là rất nhiều tiền); Có con số đó nói chung đồng ý đưa ra rất nhiều quyết định dễ dàng hơn nhiều , bởi vì chúng chỉ trở thành một vấn đề của toán học đơn giản.

Ngân sách của bạn là khoản lỗ dự kiến ​​nhân với cơ hội hàng năm của khoản lỗ đó; bây giờ hãy xem những gì bạn có thể làm để giảm thiểu mối đe dọa đó cho ngân sách.

Trong một số trường hợp, điều này sẽ chạy đến một trung tâm dữ liệu dự phòng đầy đủ, với thiết bị lạnh, sẵn sàng để đi 24x7. Nó có thể có nghĩa là một trung tâm dữ liệu dự phòng nhỏ, để tương tác của khách hàng có thể tiếp tục với số lượng các nhà điều hành điện thoại rất giảm và cảnh báo trang web giữ chỗ bị gián đoạn. Nó có thể có nghĩa là một kết nối internet thứ hai, được định tuyến lại tại trang web chính của bạn, nằm lạnh cho đến khi cần thiết. Nó có thể có nghĩa, như Mark Henderson lưu ý ở trên, bảo hiểm (nhưng bảo hiểm bao gồm các tổn thất kinh doanh cũng như chi phí phục hồi thực tế); nếu bạn có thể chi tiêu ngân sách BC của mình cho một tờ giấy duy nhất bao gồm tất cả các chi phí dự kiến ​​của bạn trong trường hợp thảm họa, thì có thể có ý nghĩa khi mua mảnh giấy đó - nhưng đừng quên yếu tố thất bại của bảo lãnh phát hànhvào kế hoạch rủi ro kinh doanh của bạn. Nó có thể có nghĩa là nâng cấp các hợp đồng bảo trì trên một số thiết bị cốt lõi lên các thiết bị bốn giờ cực kỳ tốn kém để sửa chữa. Chỉ có bạn có thể biết những gì có ý nghĩa cho doanh nghiệp của bạn.

Và một khi bạn có kế hoạch này, bạn thực sự cần phải thử nghiệm nó (với ngoại lệ có thể có dựa trên bảo hiểm). Tôi đã làm việc tại một địa điểm nơi chúng tôi có một địa điểm lạnh hoạt động quy mô nhỏ hoàn chỉnh, sẵn sàng cắt giảm, 45 phút lái xe từ cơ sở chính của chúng tôi. Khi chúng tôi gặp sự cố làm tắt mạng lõi, cuối cùng chúng tôi đã cố gắng khắc phục sự cố thay vì cắt qua trang web lạnh và sau đósửa chữa lõi và cắt lại. Một trong những lý do đằng sau sự thất bại là chúng tôi không có ý tưởng thực sự về việc mất bao lâu để cắt và cắt giảm. Do đó, không ai thực sự biết mọi thứ nên được cho phép chạy trong bao lâu mà không bị cắt trước khi đưa ra quyết định cắt, vì vậy - khá dễ hiểu - đã có sự thận trọng để quyết định cắt bỏ. Những người đứng đầu lăn lộn sau khi chúng tôi trở lại trực tuyến, 14 giờ sau; không phải vì mất điện mỗi lần , mà bởi vì rất nhiều tiền đã được chi cho một cơ sở để giảm thiểu mất điện cộng thêm một ngày mà không được sử dụng trong thời gian mất điện như vậy.

Như một điểm cuối cùng, lưu ý rằng các thành phần thuê ngoài trong kế hoạch kinh doanh của bạn không được đảm bảo để hoạt động. Quản lý cấp cao của bạn có thể đang ngồi đó suy nghĩ " nếu chúng ta đặt máy chủ lên đám mây, họ sẽ luôn ở đó và chúng ta có thể bắn sysadins ". Không phải vậy. Mây có thể thất bại như mọi thứ khác; nếu bạn đã thuê ngoài các thành phần quan trọng cho nhà cung cấp, tất cả những gì bạn đã làm là loại bỏ khả năng ước tính khả năng thất bại của các thành phần đó. Các SLA đều rất tốt, nhưng trừ khi chúng được hỗ trợ bởi các hình phạt không hiệu quả đáng kể, chúng sẽ vô nghĩa - tại sao nhà cung cấp của bạn sẽ chi thêm tiền để duy trì nếu họ có thể xử lý tiền và hoàn trả phí dịch vụ của bạn trong khoảng thời gian không có sẵn? Để đáng tin cậy, SLA của bạn cần phải đi kèm với các hình phạt gần đúng với chi phí cho việc kinh doanh của bạn bị ngừng hoạt động. Vâng, điều đó sẽ làm tăng nhiều chi phí gia công; và vâng, đó là hoàn toàn được mong đợi.


2
Tôi nên thêm ... trang web này đã bị sét đánh ba lần kể từ khi đăng bài gốc. Lý do được bắt nguồn từ việc nối đất không đủ / không tồn tại ở một số khu vực của cơ sở. Chúng tôi đã kiện các nhà thầu và bảo hiểm chăm sóc phần lớn các thay thế.
ewwhite

2
Xin lỗi, ewwhite, quy định mở đầu của tôi cũng nên được áp dụng rõ ràng hơn cho bạn; trong các trang web mà bất kỳ rủi ro nào nằm trên nền tảng, thì ít nhất tôi cũng nên cân nhắc giảm thiểu theo hướng cụ thể đối với rủi ro đó . Câu trả lời của tôi là nhiều hơn cho những người khác, những người có thể đọc câu hỏi của bạn và bắt đầu nghĩ " tốt, tôi cũng không có kế hoạch chớp nhoáng; có lẽ tôi nên ".
MadHatter

6

Nó luôn luôn phụ thuộc vào số tiền bạn muốn chi tiêu. Tôi không có đủ kiến ​​thức để nói dài về vấn đề này, nhưng tôi đã ở trong một trung tâm dữ liệu dược phẩm lớn bị sét đánh và thổi qua thứ gì đó được coi là một thiết bị chống tăng đột biến dư thừa (và được thiết kế chính xác , nhưng đã được thực hiện sai vì vậy một cái gì đó đã thông qua.)

Mức tăng tối đa mà UPS của bạn có thể ngăn chặn là gì? Nó nên có một đánh giá. Rõ ràng, cuộc đình công đủ trực tiếp để vượt quá điều đó, hoặc một cái gì đó bị rò rỉ xung quanh nguồn cấp dữ liệu của UPS, giống như một mặt đất xấu. Vì vậy, có thể bạn xem xét thiết kế năng lượng của mình, xác định khả năng xảy ra một cuộc đình công khác, so sánh chi phí của thời gian chết X với khả năng khắc phục và có thể nhờ một thợ điện đưa ra một cuộc khảo sát tốt để đảm bảo rằng mọi thứ đều có căn cứ - và một số bài đọc nhanh cho thấy rằng nối đất cho an toàn / mã không chuyên sâu như nối đất để ngăn ngừa thiệt hại do sét.


UPS có vẻ ổn. Có nhiều vấn đề ở nhiều bộ phận của tòa nhà, nhưng thông số kỹ thuật chính của UPS nêu rõ "Lọc tiếng ồn đa cực toàn thời gian: 0,3% cho phép tăng áp của IEEE: thời gian đáp ứng kẹp không: đáp ứng UL 1449"
ewwhite

Nghe hay đấy. Sau đó, nó có thể lẻn qua các phương tiện khác, nếu nguồn cấp dữ liệu chính của bạn là rắn.
mfinni
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.