Xác suất thất bại của khung gầm


48

Trong tổ chức của tôi, chúng tôi đang nghĩ về việc mua máy chủ phiến - thay vì máy chủ rack. Tất nhiên các nhà cung cấp công nghệ cũng làm cho chúng nghe rất hay. Một mối quan tâm, mà tôi đọc rất thường xuyên trên các diễn đàn khác nhau, đó là, có khả năng về mặt lý thuyết của khung máy chủ bị sập - do đó sẽ làm giảm tất cả các lưỡi dao. Đó là do cơ sở hạ tầng chia sẻ.

Phản ứng của tôi về xác suất này sẽ là dư thừa và bằng hai khung gầm thay vì một (tất nhiên rất tốn kém).

Một số người (bao gồm Nhà cung cấp HP) cố gắng thuyết phục chúng tôi rằng khung máy rất khó có khả năng bị hỏng, do có nhiều dư thừa (nguồn điện dự phòng, v.v.).

Một mối quan tâm khác về phía tôi là, nếu một cái gì đó đi xuống, phụ tùng có thể được yêu cầu - đó là khó khăn trong vị trí của chúng tôi (Ethiopia).

Vì vậy, tôi sẽ hỏi các quản trị viên có kinh nghiệm, đã quản lý máy chủ phiến: Kinh nghiệm của bạn là gì? Có phải họ đi xuống toàn bộ - và cơ sở hạ tầng chia sẻ hợp lý là gì, có thể thất bại?

Câu hỏi đó có thể được mở rộng để lưu trữ chia sẻ. Một lần nữa tôi sẽ nói, rằng chúng ta cần hai đơn vị lưu trữ thay vì chỉ một - và một lần nữa các nhà cung cấp nói, rằng những thứ này rất vững chắc, không có thất bại nào được mong đợi.

Chà - tôi khó có thể tin rằng, một cơ sở hạ tầng quan trọng như vậy có thể rất đáng tin cậy mà không cần dự phòng - nhưng có lẽ bạn có thể cho tôi biết, liệu bạn có các dự án dựa trên lưỡi kiếm thành công, hoạt động mà không cần dự phòng trong các bộ phận cốt lõi của nó (khung gầm, lưu trữ ... )

Hiện tại, chúng tôi xem xét HP - vì IBM có vẻ quá đắt đỏ.


3
Câu hỏi tuyệt vời. Tôi sẽ đăng câu trả lời của tôi và một số tình huống thất bại thực tế vào ngày hôm nay.
ewwhite

Bạn đã xem những gì Dell có trong máy chủ C của họ chưa? ví dụ: C6100 có 4 nút trong hộp 2U, tương đương với khung gầm 4 khe. Thay vì một khung gầm lưỡi 10U, bạn có thể nhận được năm máy chủ rack 2U. Không còn một điểm thất bại duy nhất nhưng bạn mất đi những lợi thế của bảng nối đa năng. Có thể HP / IBM có một sản phẩm tương đương.
jqa

Câu trả lời:


49

Có khả năng thấp là hỏng khung gầm hoàn toàn ...

Bạn có thể sẽ gặp phải các vấn đề trong cơ sở của mình trước khi duy trì sự thất bại hoàn toàn của vỏ lưỡi cắt.

Kinh nghiệm của tôi chủ yếu là với vỏ lưỡi cắt HP C7000HP C3000 . Tôi cũng đã quản lý các giải pháp lưỡi Dell và Supermicro. Người bán hàng quan trọng một chút. Nhưng tóm lại, thiết bị HP đã rất xuất sắc, Dell vẫn ổn, và Supermicro thiếu chất lượng, khả năng phục hồi và chỉ được thiết kế kém. Tôi chưa bao giờ gặp thất bại về phía HP và Dell. Supermicro đã bị mất điện nghiêm trọng, buộc chúng tôi phải từ bỏ nền tảng. Trên HP và Dell, tôi chưa bao giờ gặp phải lỗi khung gầm đầy đủ.

  • Tôi đã có các sự kiện nhiệt. Điều hòa không khí thất bại tại một cơ sở cùng vị trí gửi nhiệt độ đến 115 ° F / 46 ° C trong 10 giờ.
  • Tăng sức mạnh và thất bại đường truyền: Mất một bên của nguồn cấp A / B. Lỗi cung cấp điện cá nhân. Thường có sáu nguồn cung cấp năng lượng trong các thiết lập lưỡi kiếm của tôi, vì vậy có nhiều cảnh báo và dự phòng.
  • Lỗi máy chủ phiến cá nhân. Các vấn đề của một máy chủ không ảnh hưởng đến những người khác trong bao vây.
  • Một vụ cháy trong khung gầm ...

Tôi đã thấy nhiều môi trường khác nhau và có lợi ích khi cài đặt trong điều kiện trung tâm dữ liệu lý tưởng, cũng như một số vị trí khó khăn hơn. Về phía HP C7000 và C3000, điều cần xem xét chính là khung máy hoàn toàn theo mô-đun. Các thành phần được thiết kế để giảm thiểu tác động của lỗi thành phần ảnh hưởng đến toàn bộ thiết bị.

Hãy nghĩ về nó như thế này ... Khung gầm chính của C7000 bao gồm các cụm lắp ráp giữa và mặt trước (thụ động). Vỏ kết cấu chỉ đơn giản giữ các thành phần phía trước và phía sau lại với nhau và hỗ trợ trọng lượng của hệ thống. Gần như mọi bộ phận đều có thể được thay thế ... tin tôi đi, tôi đã tháo gỡ nhiều thứ. Các dự phòng chính là trong quạt / làm mát, điện và quản lý mạng. Bộ xử lý quản lý ( Quản trị viên Onboard của HP ) có thể được ghép nối để dự phòng, tuy nhiên các máy chủ có thể chạy mà không cần chúng.

nhập mô tả hình ảnh ở đây

Bao vây đầy đủ dân cư - nhìn phía trước. Sáu nguồn cung cấp năng lượng ở phía dưới chạy toàn bộ chiều sâu của khung và kết nối với một tổ hợp bảng nối đa năng điện mô-đun ở phía sau vỏ bọc. Các chế độ cung cấp điện có thể định cấu hình: ví dụ 3 + 3 hoặc n + 1. Vì vậy, bao vây chắc chắn có dự phòng năng lượng. nhập mô tả hình ảnh ở đây

Bao vây đầy đủ dân cư - xem phía sau. Các mô-đun mạng Kết nối ảo ở phía sau có kết nối chéo bên trong, vì vậy tôi có thể mất bên này hoặc bên kia và vẫn duy trì kết nối mạng với máy chủ. Có sáu nguồn cung cấp năng lượng nóng có thể thay thế và mười người hâm mộ có thể trao đổi nóng. nhập mô tả hình ảnh ở đây

Bao vây trống - nhìn phía trước. Lưu ý rằng thực sự không có gì cho phần này của bao vây. Tất cả các kết nối được truyền qua đến trung gian mô-đun. nhập mô tả hình ảnh ở đây

Lắp ráp trung gian loại bỏ. Lưu ý sáu nguồn cấp điện cho cụm trung gian ở phía dưới. nhập mô tả hình ảnh ở đây

Lắp ráp máy bay trung gian. Đây là nơi phép màu xảy ra. Lưu ý 16 kết nối hạ cánh riêng biệt: một cho mỗi máy chủ phiến. Tôi đã có các ổ cắm / khoang máy chủ riêng lẻ không thành công mà không giết toàn bộ vỏ hoặc ảnh hưởng đến các máy chủ khác. nhập mô tả hình ảnh ở đây

Bảng nối đa năng cung cấp điện (s). Đơn vị 3ø dưới mô-đun một pha tiêu chuẩn. Tôi đã thay đổi phân phối điện tại trung tâm dữ liệu của mình và chỉ cần hoán đổi bảng nối đa năng cung cấp năng lượng để đối phó với phương thức cung cấp năng lượng mới nhập mô tả hình ảnh ở đây

Khung gầm hư hỏng. Vỏ bọc đặc biệt này đã bị rơi trong quá trình lắp ráp, phá vỡ các chân của đầu nối ruy băng. Điều này đã không được chú ý trong nhiều ngày, dẫn đến khung gầm lưỡi đang chạy bắt lửa ... nhập mô tả hình ảnh ở đây

Dưới đây là phần còn lại của cáp băng trung gian. Điều này kiểm soát một số nhiệt độ khung gầm và giám sát môi trường. Các máy chủ phiến trong tiếp tục chạy mà không có sự cố. Các bộ phận bị ảnh hưởng đã được thay thế khi tôi rảnh trong thời gian ngừng hoạt động theo lịch trình, và tất cả đều ổn. nhập mô tả hình ảnh ở đây


+1 cho C7000. Chúng tôi đã có một hoạt động trong hai năm qua, vững chắc và không bao giờ có bất kỳ vấn đề, phần cứng hoặc hiệu suất khôn ngoan, trên vỏ hoặc lưỡi dao.
Tombull89

1
Phải đồng ý với điều này - chúng tôi đã có nhiều loại khung gầm từ Dell và chúng đã được chống đạn khá nhiều. Tôi nghĩ rằng chúng tôi đã có một mô-đun bộ điều khiển bị lỗi trên một khung và kết quả cuối cùng là chúng tôi không thể tự quản lý khung gầm từ xa trong ngày để hỗ trợ dell gửi cho chúng tôi một bộ điều khiển khác và một kỹ sư để lắp nó. Không có thời gian chết lưỡi thực tế do lỗi hoặc hoạt động để thay thế bộ điều khiển.
Rob Moir

1
Tôi phải đồng ý với @ewwhite. Tôi đã chạy c7000 trong khoảng 8 năm không ngừng nghỉ mà không gặp sự cố nào về khung gầm. Chúng tôi thậm chí đã cho chúng chạy trong 130'F trong vài giờ do lỗi HVAC và không có gì thất bại. Điều quan trọng cần ghi nhớ là đảm bảo phân chia tải điện của bạn trên nhiều bảng điện và chia mạng của bạn qua nhiều thiết bị chuyển mạch để loại bỏ một điểm lỗi duy nhất. Điều duy nhất chúng tôi từng gặp phải là một số ổ cứng máy chủ phiến, nhưng bạn cũng thấy điều này trong các máy chủ truyền thống.
mrTomahawk

20

Tôi đã quản lý một số lượng nhỏ máy chủ phiến trong tám năm nay và tôi vẫn chưa gặp sự cố trên toàn hệ thống khiến một số lưỡi dao ngoại tuyến. Tôi đã đến rất gần do các vấn đề liên quan đến điện, nhưng vẫn chưa có lỗi trên khung gầm mà không thể quy cho các nguồn bên ngoài.

Quan sát của bạn rằng khung gầm đại diện cho một điểm lỗi duy nhất là chính xác, mặc dù chúng được xây dựng với số lượng lớn dự phòng trong những ngày này. Tất cả các hệ thống lưỡi cắt mà tôi đã sử dụng đều có nguồn cấp điện song song cho các lưỡi cắt và nhiều giắc cắm mạng đi qua các đường dẫn riêng biệt và trong trường hợp có nhiều đường dẫn từ sợi quang đến các cổng quang phía sau giá đỡ. Ngay cả hệ thống thông tin khung gầm cũng có nhiều đường dẫn.

Với kỹ thuật mạng thích hợp (sử dụng NIC dự phòng, MPIO để lưu trữ) các sự kiện đơn lẻ hoàn toàn có thể tồn tại. Trong thời gian của tôi với các hệ thống này, tôi đã gặp phải các vấn đề sau, không có vấn đề nào ảnh hưởng đến nhiều hơn một lưỡi nếu có:

  • Hai nguồn cung cấp năng lượng không thành công trong giá đỡ lưỡi. Có đủ 4 dự phòng trong 4 cái còn lại để hỗ trợ tải.
  • Mất một pha cho nguồn điện 3 pha. Những nguồn cung cấp này rất hiếm trong những ngày này, nhưng hai giai đoạn còn lại có đủ khả năng để hỗ trợ tải.
  • Mất một vòng quản lý liên khung. Nó đã như thế này trong nhiều năm trước khi một nhà cung cấp công nghệ trong một cuộc gọi khác nhận thấy nó.
  • Mất các vòng quản lý liên khung hoàn toàn. Chúng tôi mất quyền truy cập bảng điều khiển quản lý, nhưng các máy chủ vẫn chạy như không có gì sai.
  • Ai đó đã vô tình khởi động lại bảng nối đa năng mạng back-of-rack. Tất cả mọi thứ trong khung gầm đó đều sử dụng các NIC dự phòng nên không có dịch vụ bị gián đoạn; tất cả lưu lượng chuyển sang bảng nối đa năng khác.

Quan điểm của TomTom về chi phí là rất đúng mặc dù. Để có được sự cân bằng chi phí đầy đủ, khung lưỡi của bạn sẽ phải được nạp đầy đủ và có thể không sử dụng những thứ đặc biệt như công tắc phía sau giá đỡ. Giá đỡ lưỡi có ý nghĩa ở những khu vực bạn thực sự cần mật độ vì bạn bị giới hạn không gian


Ngoại trừ kiến ​​trúc SuperMicro Twin cung cấp cho bạn hai máy tính mỗi TU với hai ổ cắm trên mỗi máy tính - tương tự như những gì bạn nhận được với các lưỡi MOST. nó chắc chắn rất dày đặc;) Mật độ cao nhất duy nhất tôi biết là các lưỡi Dell sử dụng cầu ivy ... nhưng chúng bị hạn chế hơn so với.
TomTom

@tomtom nhưng song sinh có cung cấp psus dự phòng không? Chúng tôi chỉ xây dựng một và tôi không thấy tùy chọn đó ở bất cứ đâu. Chúng tôi đã mua một psu dự phòng lạnh để có trong tay chỉ trong trường hợp.
Jeff Atwood

@JeffAtwood, tôi chưa thấy các PSU dư thừa trong cặp song sinh 1U của SuperMicro, nhưng dòng song sinh 2U 4 nút của họ có chúng. Ví dụ .
Charles

Ngoài ra, ai quan tâm. Có một nguồn cung cấp năng lượng dự phòng trong giá đỡ. Thay thế mất vài giây.
TomTom

14

Câu hỏi đó có thể được mở rộng để lưu trữ chia sẻ. Một lần nữa tôi sẽ nói, rằng chúng ta cần hai đơn vị lưu trữ thay vì chỉ một - và một lần nữa các nhà cung cấp nói, rằng những thứ này rất vững chắc, không có thất bại nào được mong đợi.

Thật ra là không. Bạn lo ngại cho đến nay có ý nghĩa, câu này đặt chúng vào "đọc những thứ trước mắt bạn". HA với bản sao đầy đủ là một tính năng doanh nghiệp được biết đến cho các đơn vị lưu trữ. Điểm đáng chú ý là SAN (Bộ lưu trữ phức tạp hơn nhiều so với khung lưỡi cắt mà cuối cùng chỉ là "kim loại ngu ngốc". Mọi thứ trong khung gầm trừ một số máy quay đều có thể thay thế - tất cả các mô-đun, v.v. Không được phép thất bại. Không ai nói rằng trung tâm lưỡi kiếm tự cung cấp cho lưỡi dao tính sẵn sàng cao.

Điều này khác rất nhiều so với SAN được cho là tăng 100% thời gian - ở trạng thái nhất quán - vì vậy bạn có những thứ như sao chép, v.v.

R SANG NÓI: xem số của bạn. Tôi đã cân nhắc việc mua lưỡi dao trong một thời gian và họ KHÔNG BAO GIỜ ĐƯỢC TẠO TÀI CHÍNH. Khung máy quá đắt và lưỡi dao không thực sự rẻ hơn so với máy tính thông thường. Tôi sẽ đề nghị nhìn vào kiến ​​trúc SuperMicro Twin thay thế.


Sinh đôi và sinh đôi (2U 4 nút) là lựa chọn thay thế tuyệt vời cho lưỡi dao. Intel cũng tạo ra một dòng máy chủ sinh đôi và sinh đôi.
Charles

@Charles Bạn biết gì về cặp song sinh béo ú? 8 máy trong 4 U;)
TomTom

Tôi đã nhìn thấy một cái, nhưng không có cơ hội để chơi hoặc đánh giá nó.
Charles

4

Các máy chủ phiến mà tôi đã có kinh nghiệm là của IBM. Những cái cụ thể đó hoàn toàn theo mô-đun và có nhiều dự phòng được tích hợp. Vì vậy, nếu có gì đó không thành công, nó sẽ là một trong những thành phần như PSU hoặc công tắc mô-đun, v.v. Nhưng một lần nữa, có cả sự dư thừa.

Kể từ khi dính líu đến các lưỡi IBM, tôi chưa thấy thất bại hoàn toàn trước đây.

Với các thương hiệu khác, tôi nghi ngờ chúng sẽ được xây dựng theo kiểu tương tự.
Sẽ là một ý tưởng tốt để nói chuyện với một nhà cung cấp là tốt và đọc rất nhiều.
Đó là một khoản đầu tư lớn.


1

Thất bại dẫn đến việc mất nhiều máy chủ phiến trong cùng một vỏ có thể so sánh được (có khả năng và nguyên nhân) dẫn đến lỗi dẫn đến nhiều lần ngừng hoạt động của máy chủ trong cùng một giá.

Thiết lập ban đầu để giảm thiểu các điểm hỏng hóc duy nhất (hai nguồn điện AC riêng biệt , mỗi nguồn có thể xử lý toàn bộ tải, chạy đến các nguồn cung cấp DC riêng biệt, sao cho một nửa có thể xử lý toàn bộ tải; hai phần đính kèm mạng riêng biệt , một trong hai có thể xử lý toàn bộ tải dự kiến, v.v.) và sự khác biệt giữa thứ gì đó lấy ra tất cả các lưỡi dao trong khung hoặc tất cả các máy chủ 2U trong giá đỡ là rất nhỏ.


1

Một mối quan tâm, mà tôi đọc rất thường xuyên trên các diễn đàn khác nhau, đó là, có khả năng về mặt lý thuyết của khung máy chủ bị sập - do đó sẽ làm giảm tất cả các lưỡi dao. Đó là do cơ sở hạ tầng chia sẻ.

Thật! Khoảng 5 năm trước, trong khi quản lý hai vỏ lưỡi p-Class HP Proliant, tôi đã gặp phải nhiều vấn đề về khung gầm nhiều lần.

Tôi đã có các máy chủ phiến không thể bật, nếu chúng bị tắt (máy chủ không được tắt thường xuyên, nhưng đã trở thành một vấn đề rất thực tế đối với chúng tôi giống nhau). Tôi đã có máy chủ đột ngột tắt và không thể bật lại được. Cuối cùng, tôi đã tắt tất cả các máy chủ và không thể hoạt động trở lại.

Như tôi nhớ lại, gần như tất cả các vấn đề được quy cho các backplanes công suất kém hoặc backplanes điều khiển. Chúng tôi đã thay thế một số lần và thông điệp không cụ thể, không có bản ghi mà tôi nhận được từ các tín đồ công nghệ, rằng họ có một số vấn đề với thế hệ vỏ lưỡi kiếm này.

Lúc đó tôi đã quyết định rằng lợi ích của máy chủ phiến chỉ đơn giản là không đáng để mạo hiểm, nếu tôi có bất cứ điều gì để nói trong các lần mua hàng trong tương lai.

Nhanh chóng chuyển tiếp đến chủ nhân tiếp theo của tôi, và người hiện tại của tôi, cho vấn đề đó. Họ đã có vỏ bọc c-Class HP Proliant đang chạy, vì vậy cảm giác ấm áp của tôi đối với lưỡi kiếm không thực sự quan trọng. Trong 5 năm tôi đã xử lý các vỏ bọc c-Class, tôi chưa bao giờ trải nghiệm bất cứ điều gì giống như tôi đã làm với p-Class, trong đó toàn bộ bao vây thất bại đối với tôi. Họ đã chạy mà không gặp vấn đề gì lớn.

(Ngoại trừ thời gian một cơn bão mưa gửi mưa qua mái nhà, 4 tầng, một lỗ nhỏ trên con dấu của phòng máy tính, xuống một sợi cáp và vào khung máy)


-1

Cả khung gầm của DELL & HP Blade đều thiếu mặt phẳng giữa. Đây là nơi IBM Bladecenter chứng tỏ là người chiến thắng. Theo hiểu biết của tôi, khung gầm lưỡi duy nhất cung cấp một mặt phẳng giữa dự phòng. Mặc dù HP cung cấp một bộ phần mềm quản lý tuyệt vời cho các lưỡi dao, chúng tôi đã mua Bladecenter E cho công ty của chúng tôi chỉ để tránh một điểm thất bại duy nhất của toàn bộ khung máy.


Đây thực sự là những gì các tài liệu tiếp thị của IBM nói với tôi; rằng họ là nhà cung cấp duy nhất có giải pháp lưỡi dự phòng hoàn toàn. Tuy nhiên, sau khi đọc các tin nhắn khác trong chuỗi này, có vẻ như các giải pháp của HP cũng có tính năng này.
Martijn
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.