Điều này phụ thuộc vào phần cứng máy chủ của bạn. Một hệ thống whitebox hoặc Supermicro sẽ xử lý việc này khác với Dell, HP hoặc IBM ...
Một trong những tính năng bổ sung giá trị của các máy chủ cao cấp là có mức độ tích hợp phần cứng / hệ điều hành. Các máy chủ Nicer sẽ báo cáo những gì bạn đang tìm kiếm như một phần của các tác nhân quản lý và / hoặc giải pháp quản lý ngoài băng tần (ILO, DRAC, IPMI).
Bạn nên sử dụng các công cụ tự nhiên cho nền tảng phần cứng của bạn.
Trích từ máy chủ HP ProLiant chạy Linux và các tác nhân Quản lý HP:
Trap-ID=6056
ECC Memory Correctable Errors detected.
và
Trap-ID=6052
Advanced ECC Memory Engaged
hoặc nghiêm trọng hơn
Trap-ID=6029
A correctable memory log entry indicates a memory module needs to be
replaced.
hoặc tệ nhất ... Bỏ qua lỗi trong 6 ngày cho đến khi máy chủ gặp sự cố vì RAM xấu
0004 Repaired 22:21 12/01/2008 22:21 12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)
0007 Repaired 02:58 12/07/2008 02:58 12/07/2008 0001
LOG: POST Error: 201-Memory Error Single-bit error occured during
memory initialization,
Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.
0008 Repaired 19:31 12/08/2009 19:31 12/08/2009 0001
LOG: ASR Detected by System ROM
Chúng đã được ghi lại, cộng với bẫy SNMP và email đã được gửi.
Nhìn chung, bạn sẽ thấy Máy kiểm tra ngoại lệ trong bộ đệm vòng nhân, do đó bạn có thể kiểm tra dmesg
hoặc chạy mcelog . Theo kinh nghiệm của tôi với thiết bị Supermicro không có IPMI, điều đó không nắm bắt được mọi thứ và tôi vẫn gặp lỗi RAM trượt qua các vết nứt và gây ra sự cố ngừng hoạt động. Thật không may, điều này dẫn đến các chính sách lưu trữ RAM cổ xưa trước khi triển khai hệ thống.