Có cần thiết phải ghi RAM cho phần cứng lớp máy chủ không?


31

Xem xét thực tế rằng nhiều hệ thống cấp máy chủ được trang bị RAM ECC , có cần thiết hoặc hữu ích để ghi vào bộ nhớ DIMM trước khi triển khai không?

Tôi đã gặp một môi trường nơi tất cả RAM máy chủ được đặt trong quá trình xử lý căng thẳng / căng thẳng kéo dài. Điều này đã làm trì hoãn việc triển khai hệ thống đôi khi và tác động đến thời gian chờ phần cứng.

Phần cứng máy chủ chủ yếu là Supermicro , do đó RAM có nguồn gốc từ nhiều nhà cung cấp khác nhau; không trực tiếp từ nhà sản xuất như Dell Poweredge hoặc HP ProLiant .

Đây có phải là một bài tập hữu ích? Theo kinh nghiệm trước đây của tôi, tôi chỉ đơn giản là sử dụng RAM của nhà cung cấp. Các bài kiểm tra bộ nhớ POST có nên bắt bộ nhớ DOA không? Tôi đã trả lời các lỗi ECC từ lâu trước khi DIMM thực sự thất bại, vì các ngưỡng ECC thường là yếu tố kích hoạt vị trí bảo hành.

  • Bạn burn-in của bạn RAM?
  • Nếu vậy, bạn sử dụng phương pháp nào để thực hiện các bài kiểm tra?
  • Nó đã xác định bất kỳ vấn đề trước khi triển khai?
  • Quá trình burn-in có dẫn đến sự ổn định nền tảng bổ sung nào so với việc không thực hiện bước đó không?
  • Bạn làm gì khi thêm RAM vào máy chủ đang chạy?

Câu trả lời:


25

Tôi đã tìm thấy một tài liệu của Kingston chi tiết cách họ làm việc với Bộ nhớ máy chủ, tôi tin rằng quy trình này, thông thường, sẽ giống với hầu hết các nhà sản xuất được biết đến. Chip bộ nhớ, cũng như tất cả các thiết bị bán dẫn, tuân theo một mẫu độ tin cậy / lỗi cụ thể được gọi là Đường cong bồn tắm:

nhập mô tả hình ảnh ở đây

Thời gian được biểu thị trên trục hoành, bắt đầu bằng lô hàng của nhà máy và tiếp tục qua ba khoảng thời gian riêng biệt:

  • Thất bại sớm trong cuộc sống: Hầu hết các thất bại xảy ra trong giai đoạn sử dụng sớm. Tuy nhiên, khi thời gian trôi qua, số lượng thất bại giảm đi nhanh chóng. Thời gian Thất bại sớm, thể hiện bằng màu vàng, là khoảng 3 tháng.

  • Cuộc sống hữu ích: Trong giai đoạn này, thất bại là cực kỳ hiếm. Tuổi thọ hữu ích được hiển thị bằng màu xanh lam và được ước tính là hơn 20 năm.

  • Thất bại cuối đời: Cuối cùng, các sản phẩm bán dẫn bị hao mòn và hỏng. Thời kỳ kết thúc cuộc sống được hiển thị bằng màu xanh lá cây

Bây giờ bởi vì Kingston lưu ý rằng tỷ lệ thất bại cao sẽ xảy ra trong ba tháng đầu (sau ba tháng này, đơn vị được coi là tốt cho đến khi EOL khoảng 15 - 20 năm sau). Họ đã thiết kế một thử nghiệm bằng cách sử dụng một đơn vị gọi là KT2400 để kiểm tra một cách tàn nhẫn các mô-đun bộ nhớ máy chủ trong 24 giờ ở điện áp cao 100 độ C, trong đó tất cả các tế bào của mọi chip DRAM đều được thực hiện liên tục; mức độ kiểm tra căng thẳng cao này có tác dụng làm lão hóa các mô-đun ít nhất ba tháng (như đã lưu ý trước giai đoạn quan trọng mà hầu hết các mô-đun cho thấy sự thất bại).

Kết quả là:

Vào tháng 3 năm 2004, Kingston đã bắt đầu thử nghiệm kéo dài sáu tháng, trong đó 100% bộ nhớ máy chủ của nó đã được thử nghiệm trong KT2400. Kết quả được theo dõi chặt chẽ để đo lường sự thay đổi trong thất bại. Vào tháng 9 năm 2004, sau khi tất cả các dữ liệu thử nghiệm được tổng hợp và phân tích, kết quả cho thấy các thất bại đã giảm 90%. Những kết quả này vượt quá mong đợi và thể hiện sự cải thiện đáng kể cho một dòng sản phẩm đã đứng đầu lớp.

Vậy tại sao ghi trong bộ nhớ không hữu ích cho bộ nhớ máy chủ? Đơn giản, vì nó đã được thực hiện bởi nhà sản xuất của bạn!


10
Nhà sản xuất chip và thậm chí có thể nhà cung cấp máy chủ có thể kiểm tra một số chip. Nhưng các thành phần mst chỉ được thử nghiệm mẫu trong những ngày này để giảm chi phí. Ngay cả khi chip hoặc toàn bộ DIMM của bạn đã được kiểm tra một lần, điều đó không cho bạn biết liệu các tiếp điểm hoặc PCB có bị điều chỉnh hoặc bị rối trong quá trình lắp ráp hoặc vận chuyển hay không. Chúng tôi đã gặp sự cố tìm kiếm MemTEst86 với bộ nhớ từ hai máy chủ khác nhau, ngoài luồng từ hai nhà cung cấp máy chủ "cấp 1" khác nhau. Nếu họ đã đưa nó vào sản xuất, ECC có thể đã cứu chúng tôi, nhưng tham nhũng cơ sở dữ liệu im lặng cũng có thể là kết quả.
rmalayter

7
Đường cong bồn tắm này không chỉ dành cho chất bán dẫn. Hầu hết các thành phần được xây dựng với bất kỳ mức độ kiểm soát chất lượng nào đều tuân theo nó: ổ cứng, SSD, nguồn điện (chủ yếu là do tụ điện), quạt, v.v.
voretaq7

6
Đây là một trong những lý do tôi không bao giờ mua bảo hành mở rộng trên thiết bị điện tử. Thiết bị (hoặc thành phần) sẽ bị hỏng trong vài tháng đầu hoặc sẽ kéo dài suốt đời. Điều này cũng cho thấy lý do tại sao việc loại bỏ những quả táo xấu là rất quan trọng để bạn có thể đi thuyền thuận lợi càng sớm càng tốt.
Atari911

@rmalayter Vì vậy, bạn sẽ ủng hộ việc ghi RAM nào?
ewwhite

2
@ewwhite Vâng, tôi sẽ kiểm tra. Chỉ mất vài giờ hoặc lâu hơn để khởi động memtest86 và để nó kiểm tra 384 GB RAM. Chúng tôi ghi trong tất cả các hệ thống con lưu trữ cũng sử dụng IOmeter cho cùng một lý do. Đã có một số bộ điều khiển hoặc ổ đĩa RAID chết trên chúng tôi trong quá trình burn-in trong vài năm qua, mặc dù ban đầu chúng hoạt động tốt trong quá trình cài đặt HĐH. Đôi khi, đó là một phần mềm xấu, đôi khi RAM bộ nhớ cache bị lỗi trên bộ điều khiển RAID, đôi khi đó là "ai biết được - RMA nó!"
rmalayter

30

Không.

Mục tiêu của việc đốt cháy phần cứng là nhấn mạnh đến mức xúc tác cho sự thất bại trong một thành phần.

Làm điều này với các ổ đĩa cứng cơ học sẽ nhận được một số kết quả, nhưng nó sẽ không làm được gì nhiều cho RAM. Bản chất của thành phần này là các yếu tố môi trường và tuổi tác có nhiều khả năng là nguyên nhân gây ra lỗi hơn là đọc và ghi vào RAM (thậm chí ở băng thông tối đa trong vài giờ hoặc vài ngày).

Giả sử RAM của bạn đủ chất lượng để chất hàn không tan chảy ngay lần đầu tiên bạn thực sự bắt đầu sử dụng nó, quy trình ghi đĩa sẽ không giúp bạn tìm ra khuyết điểm.


15

Chúng tôi mua lưỡi dao và chúng tôi thường mua một khối lớn hợp lý tại một thời điểm, vì vậy chúng tôi sẽ đưa chúng vào và cài đặt chúng qua NGÀY trước khi các cổng mạng của chúng tôi sẵn sàng / an toàn. Vì vậy, chúng tôi sử dụng thời gian đó để sử dụng memtest trong khoảng 24 giờ, đôi khi lâu hơn nếu hết vào cuối tuần - một khi chúng tôi đã hoàn thành ESXi cơ bản và IP đã sẵn sàng để áp dụng cấu hình máy chủ của nó sau khi kết nối mạng. Vì vậy, vâng, chúng tôi đã thử nghiệm nó, nhiều cơ hội hơn mức cần thiết nhưng nó đã bắt gặp một vài DIMM DOA trước đây và không phải tôi thực hiện nó một cách vật lý nên tôi không mất công sức. Tôi cho nó.


3
"Thử nghiệm cơ hội" có ý nghĩa - có cơ hội tôi sẽ làm điều đó. Nếu nó sẽ trì hoãn việc triển khai, tôi có thể gặp rủi ro DIMM xấu và đèn ECC :-)
voretaq7

2
Nếu bạn xây dựng bài kiểm tra vào kế hoạch triển khai thì bạn đã tự mua thời gian, nếu bạn chỉ cần làm mọi thứ nhanh nhất có thể, bạn sẽ tự đặt ra lời phê bình vào một ngày sau đó. Quản lý mạnh tay bất cứ khi nào bạn có thể :)
Chopper3

@ Chopper3 Vậy nếu bạn đang thiết lập một chính sách, hãy làm điều đó luôn? , làm điều đó không bao giờ? hoặc làm điều đó khi bạn có thể? .
ewwhite

@ewwhite - Tôi muốn nói sau, mặc dù chúng ta có xu hướng thiết kế nó vào kế hoạch triển khai tiêu chuẩn, vì vậy rất có khả năng mỗi lần.
Chopper3

11

Tôi đoán nó phụ thuộc vào chính xác quá trình của bạn là gì. TÔI LUÔN chạy MemTest86 trên bộ nhớ trước khi đặt nó vào hệ thống (máy chủ hoặc cách khác). Sau khi bạn có một hệ thống hoạt động, các sự cố do bộ nhớ bị lỗi có thể khó khắc phục sự cố.

Đối với thực sự "kiểm tra căng thẳng" bộ nhớ; Tôi thậm chí vẫn chưa thấy lý do tại sao điều này sẽ hữu ích trừ khi bạn đang thử nghiệm cho mục đích ép xung.


MemTest86 nói gì với bạn? Bạn đã tìm thấy các vấn đề về RAM trước khi cài đặt nó trong một máy chủ bằng phương pháp này chưa?
ewwhite

4
Tôi đã tìm thấy rất nhiều lỗi với MemTest86 + mà chẩn đoán bộ nhớ BIOS và Windows sẽ không tìm thấy. Tôi khuyên bạn nên nó. Có, ECC sẽ tìm thấy các lỗi tương tự, nhưng một memtest sẽ giúp bạn tìm ra tất cả trước thời hạn.
Owen Johnson

6
MemTest sẽ cho bạn biết nếu có bất kỳ sai sót nào trong phần bên trong của bộ nhớ. Nó thực hiện điều này bằng cách lưu trữ các mẫu byte cũng như các bộ byte ngẫu nhiên trong bộ nhớ nhằm gây ra lỗi. Chương trình có thể chạy "vượt qua" để cho bạn biết bộ nhớ có tốt không nhưng tôi thường chạy nhiều lượt qua đêm chỉ để đảm bảo. Điều thú vị về MemTest là nó cho tôi biết nếu bộ nhớ bị hỏng trước khi tôi triển khai hệ thống. Nó đã kích hoạt RMA nhiều lần và giúp tôi đỡ đau đầu. Khi máy được triển khai, nó sẽ bị lỗi @ss thành RMA bộ nhớ.
Atari911

2
@OwenJohnson Nói chung khi bạn chạy MemTest86 (+), bạn sẽ hy vọng kích hoạt các lỗi ECC đó trước khi đưa máy vào sản xuất :-)
voretaq7

6

Tôi không, nhưng tôi đã thấy những người làm. Tôi chưa bao giờ thấy họ đạt được bất cứ điều gì từ nó, tôi nghĩ rằng nó có thể là một sự nôn nao hoặc mê tín có lẽ.

Cá nhân, tôi giống như bạn ở chỗ tỷ lệ lỗi ECC hữu ích hơn đối với tôi - giả sử RAM không phải là DOA nhưng sau đó bạn sẽ biết rằng dù sao đi nữa.


6

Đối với ram không ECC chạy 30 phút trên memtest86 + rất hữu ích vì thường không có phương pháp đáng tin cậy để phát hiện lỗi bit khi hệ thống đang chạy.
Sàng lọc màu xanh không được coi là phương pháp đáng tin cậy ...
Và RAM không ổn định thường không hiển thị ngay lập tức, chỉ sau khi hệ thống thấy một số bộ nhớ đầy và sau đó chỉ khi dữ liệu trong RAM đó là mã được sử dụng và rồi gặp nạn. Tham nhũng dữ liệu có thể không được chú ý trong thời gian dài.

Đối với ram ECC, nó sẽ không làm bất cứ điều gì mà bộ điều khiển bộ nhớ sẽ không làm nên nó thực sự không có ý nghĩa. Nó chỉ là một sự lãng phí thời gian.

Theo kinh nghiệm của tôi, những người khăng khăng muốn đốt cháy thường là những người già luôn làm điều đó như thế này và họ cứ làm theo thói quen mà không thực sự nghĩ mọi thứ là đúng.
Hoặc họ là những chàng trai trẻ làm theo các thủ tục quy định được viết bởi những người già đó.


Kiến thức xấu, lưu truyền qua nhiều thế hệ?
ewwhite

@ewwhite Vâng, theo như tôi biết. Và tôi có một Bsc. trong công nghệ phần cứng máy tính, vì vậy tôi phải biết những gì tôi đang nói về :-)
Tonny

ngoại trừ tất cả các sự cố của những người thực sự tìm thấy lỗi, như được hiển thị trong chuỗi. Ngoài ra, nếu không rõ ràng, có một sự khác biệt trong việc thay đổi các bộ phận trước khi đưa máy chủ vào sản xuất hoặc thay thế ram trên máy chủ DB chạy trong 24x7. Trừ khi giả vờ đó là "lỗi phát triển" và mọi người khác chỉ là những người sùng bái hàng hóa, nhưng nó vẫn gây ra tổn thất khi có một máy chủ prod ngoại tuyến.
Florian Heigl

1
@FlorianHeigl Tôi không ủng hộ việc đốt RAM vì lợi ích của nó, nhưng tôi sẽ không bao giờ tán thành việc đưa máy chủ vào sản xuất, mà không bị kiểm tra căng thẳng trong ít nhất 24 giờ. RAM thường không phải là vấn đề. Ổ đĩa cứng, bộ điều khiển RAID, thẻ IPMI, bộ nguồn, CPU, VRM ... Tôi đã thấy tất cả. (Và thường thì máy chủ vẫn tồn tại cài đặt ban đầu tốt. Đó là tải và / hoặc sức khỏe làm việc đó khi nó phải thực sự hoạt động.)
Tonny

3

Nó phụ thuộc.

Nếu bạn đang triển khai 50 000 RAM mới và bạn biết rằng phần cứng cụ thể này có tỷ lệ thất bại là 0,01% sau khi hoạt động chưa đầy một ngày, theo thống kê, có một vài trong số chúng sẽ thất bại trong ngày đầu tiên. Đốt trong có nghĩa là để bắt được điều đó. Với việc triển khai trên quy mô đó, thất bại được dự kiến, không phải là một tình huống đặc biệt.

Nếu bạn chỉ triển khai một vài trăm mặt hàng, rất có thể số liệu thống kê về phía bạn vì bạn phải khá xui xẻo khi nhận được một phần thất bại.


Bạn đã có một điểm. Btu hãy đối mặt với nó, hầu hết chúng ta sẽ không bao giờ thực hiện những triển khai lớn như vậy. (Trừ khi bạn đang xây dựng một trung tâm dữ liệu mới của Google.) Hầu hết chúng ta thường triển khai tối đa 5 đến 10 máy chủ cùng một lúc. Cá nhân lớn nhất tôi từng làm là 16 nút ESX (cụm 4 nút 4 nút), mỗi nút lấy 8 DIMM. Đó là 3 năm trước và kể từ đó 1 DIMM đã thất bại (2 tháng trước). Phải thay 5 bộ nguồn trên cùng một máy. Đầu tiên sau một tuần rồi. Nhưng vì đây là những HP Proliants, chúng tôi sắp xếp điều đó. (HP và nguồn cung cấp năng lượng .. Đừng bắt tôi ...)
Tonny
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.