Làm thế nào nghiêm trọng tôi nên thực hiện cảnh báo lỗi có thể sửa chữa ECC?


8

Tôi có một đống máy chủ Sun X2200-M2. Những máy chủ này có bộ nhớ ECC.

Trong một số máy chủ này, tôi nhận được cảnh báo trong eLOM về "lỗi ECC có thể sửa được phát hiện", ví dụ:

# ssh regress11 ipmitool sel elist
   1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
   2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted

... Một số thường xuyên hơn những người khác.

Hạt nhân trên hệ thống cụ thể này cũng đang ném lỗi EDAC, mặc dù với tần suất lớn hơn nhiều so với eLOM đang ghi lại các sự kiện ECC:

EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error

Bây giờ nếu máy chủ đang phát hiện ECC không chính xác, hệ thống sẽ thiết lập lại, vì vậy rõ ràng đó là xấu và loại bỏ / thay thế thanh hoặc cặp đã xác định sẽ khắc phục vấn đề.

Nhưng tôi nghĩ rằng nếu lỗi là có thể sửa được, thì không có vấn đề gì ngay lập tức - tôi có thể coi đây là một cảnh báo và sẵn sàng rút gậy / cặp nếu một lỗi không thể sửa được bắt đầu xảy ra?

Câu trả lời:


10

Phụ thuộc vào tần suất bạn nhận được lỗi. Vì nhiều lý do, ECC phải sửa các lỗi một bit trung bình khoảng một lần một năm. Nếu bạn nhận được chúng nhanh hơn đáng kể hoặc nếu chúng là lỗi nhiều bit, bạn nên lo lắng (tôi sẽ thay thế RAM càng sớm càng tốt).

Ngoài ra, ECC không hoàn hảo. Có thể lỗi tích lũy vượt qua ECC; Điều đó sẽ hiển thị như một sự cố hệ điều hành hoặc vấn đề tương tự.


Cảm ơn. Đàm phán với khách hàng để thay thế quỹ.
David Mackffy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.