Tầm quan trọng của bộ nhớ ECC


11

Các mô-đun bộ nhớ ECC có quan trọng để có trên một máy chủ không quan trọng không?

Tôi đã suy nghĩ về việc có cho mình một máy chủ chuyên dụng đồ chơi cho rất nhiều thứ ngẫu nhiên, không quan trọng. Khởi động lại lẻ tẻ không phải là vấn đề lớn. Tôi đang xem một nhà cung cấp nhưng giá cực kỳ rẻ. Phần cứng của chúng nghe có vẻ như một trò đùa cho bất kỳ hộp máy chủ nghiêm trọng nào: bộ xử lý máy tính để bàn, RAM không ECC, khung không tên, không có ổ cứng SATA, v.v. (vâng, giá cả hợp lý, tôi đoán vậy).

Tôi được cấp bộ nhớ ECC trên bất kỳ máy chủ "nghiêm túc" nào, vì vậy tôi tự hỏi liệu đó có phải là vấn đề lớn hay không đối với các thiết bị "đồ chơi".


3
Bạn đặt câu hỏi về bộ nhớ ECC nhưng dường như rất vui khi sử dụng ổ đĩa SATA. Rất lạ.
John Gardeniers

3
@JohnGardeniers Bạn thấy đấy, ngay cả khi điều đó có nghĩa là ổ cứng đã chết mỗi năm một lần, tôi không bận tâm đến vài giờ ngừng hoạt động và phục hồi đột kích. Nhưng gặp rắc rối hàng ngày / hàng tuần sẽ gây phiền nhiễu. Vâng, tôi thực sự quan tâm đến việc giải trí của tôi hơn thời gian hoạt động của tôi trong trường hợp này ...
PJK

6
@JohnGardeniers: ổ đĩa SATA không có bất kỳ đáng tin cậy hơn SCSI / SAS HDD: usenix.org/event/fast07/tech/schroeder/schroeder.pdf
Hubert Kario

Câu trả lời:


11

Dữ liệu được công bố bởi nhân viên CNTT của Cern ( Tính toàn vẹn dữ liệu ) sẽ cho thấy rằng số lượng lỗi xuất phát từ RAM là khá thấp. Bạn vẫn phải cân nhắc dữ liệu của bạn và chi phí phần cứng.

Bạn có thể đọc thêm một chút về điều này tại StorageMojo .


10

RAM ECC về cơ bản giúp ngăn ngừa các lỗi xảy ra khi đọc và ghi từ RAM. Cơ hội thực sự có một lỗi là khá nhỏ, nhưng khác không. Tôi sẽ nói rằng nếu bạn không thực hiện các nhiệm vụ quan trọng, bạn có thể thoát khỏi mà không có RAM ECC - như tôi đã nói, khả năng gặp phải một lỗi mà ECC sẽ ngăn chặn là rất nhỏ.


6

Một máy chủ không quan trọng là gì? Một cái có thể thất bại?

RAM ECC là cơ bản khi độ tin cậy của bộ nhớ là cơ bản.

Hai thứ phát triển cùng với sự tăng trưởng của kích thước bộ nhớ:

  • sự phụ thuộc của phần mềm vào bộ nhớ, đặc biệt. phần mềm máy chủ (lấy ví dụ: bộ nhớ đệm)
  • xác suất xảy ra lỗi bộ nhớ (p = num_bits * p_bit_failure)

Bài thuyết trình về intel này trên ECC báo cáo những sự thật sau:

  • Tỷ lệ lỗi bộ nhớ trung bình cho máy chủ có bộ nhớ 4GB chạy 24x7 là 150 lần một năm
  • ~ 4000 lỗi có thể sửa cho mỗi mô-đun bộ nhớ mỗi năm
  • Ép xung và tuổi hệ thống làm tăng đáng kể tỷ lệ thất bại
  • Thất bại tái diễn là phổ biến và xảy ra nhanh chóng (97% xảy ra trong vòng 10 ngày kể từ lần thất bại đầu tiên) => hiệu ứng tuyết lở
  • Đối với máy chủ ECC có tuổi thọ từ 3 đến 5 năm, khả năng lỗi hệ thống không thể sửa lỗi bộ nhớ nhỏ hơn 0,001%

Một nghiên cứu gần đây của WISC cho thấy ECC rất cần thiết cho các hệ thống ZFS này:

ZFS không có biện pháp phòng ngừa hỏng bộ nhớ: các khối dữ liệu xấu được trả lại cho người dùng hoặc ghi vào đĩa, hoạt động của hệ thống tệp không thành công và nhiều lần toàn bộ hệ thống gặp sự cố.

Điều quan trọng cần lưu ý là các hệ thống tệp khác cũng nhạy cảm với hình thức hỏng dữ liệu này như ZFS.

ECC là thứ giúp bạn tránh khỏi những vấn đề này, khi có thể, và trong những trường hợp tai hại, điều gì cảnh báo bạn về điều này xảy ra trước khi quá muộn.


1

Nó đơn giản là không quan trọng. Nếu bạn cần 99,999% thời gian hoạt động, bạn sẽ lo lắng về điều đó. Ngoài ra, bạn sẽ khởi động lại thường xuyên hơn bạn sẽ gặp lỗi bộ nhớ.


1

Nghiên cứu này của Google từ năm 2009 đã tìm thấy tỷ lệ lỗi từ 25000 đến 70000 lỗi trên một tỷ giờ thiết bị trên mỗi megabit. Điều đó có nghĩa là đối với 8GiB của RAM (đã sử dụng), có khoảng 1,7 đến 4,8 lỗi mỗi giờ.

Bitflips là thứ tồn tại và không nên bỏ qua ngay khi tính toàn vẹn dữ liệu có tầm quan trọng.

Trong trường hợp của bạn (ngẫu nhiên, không quan trọng), nó có thể sẽ là quá mức cần thiết.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.