Tôi có một đống máy chủ Sun X2200-M2. Những máy chủ này có bộ nhớ ECC.
Trong một số máy chủ này, tôi nhận được cảnh báo trong eLOM về "lỗi ECC có thể sửa được phát hiện", ví dụ:
# ssh regress11 ipmitool sel elist
1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
... Một số thường xuyên hơn những người khác.
Hạt nhân trên hệ thống cụ thể này cũng đang ném lỗi EDAC, mặc dù với tần suất lớn hơn nhiều so với eLOM đang ghi lại các sự kiện ECC:
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
Bây giờ nếu máy chủ đang phát hiện ECC không chính xác, hệ thống sẽ thiết lập lại, vì vậy rõ ràng đó là xấu và loại bỏ / thay thế thanh hoặc cặp đã xác định sẽ khắc phục vấn đề.
Nhưng tôi nghĩ rằng nếu lỗi là có thể sửa được, thì không có vấn đề gì ngay lập tức - tôi có thể coi đây là một cảnh báo và sẵn sàng rút gậy / cặp nếu một lỗi không thể sửa được bắt đầu xảy ra?