MC0, hàng 2 và kênh 0 là đáng kể. Hãy thử thay thế DIMMA1 trên CPU0.
Ví dụ, tôi đã phải xác định một DIMM xấu trong máy chủ Linux với 16 khe DIMM được điền đầy đủ và hai CPU. Đây là những lỗi tôi thấy trên bảng điều khiển:
EDAC k8 MC1: general bus error: participating processor(local node origin), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
EDAC MC1: CE page 0x103ca78, offset 0xf88, grain 8, syndrome 0x9f65, row 1, channel 0, label "": k8_edac
EDAC MC1: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC1: extended error code: ECC chipkill x4 error
DIMM xấu trong máy chủ của tôi là DIMMA0 trên CPU1.
EDAC là viết tắt của Phát hiện và Sửa lỗi và được ghi lại tại http://www.kernel.org/doc/Documentation/edac.txt và /usr/share/doc/kernel-doc-2.6*/Documentation/drivers/edac/edac .txt trên hệ thống của tôi (RHEL5). CE là viết tắt của "lỗi có thể sửa chữa" và như tài liệu chỉ ra, "CE cung cấp các dấu hiệu sớm cho thấy DIMM đang bắt đầu thất bại."
Quay trở lại các lỗi EDAC ở trên tôi thấy trên bảng điều khiển máy chủ của mình, MC1 (Bộ điều khiển bộ nhớ 1) có nghĩa là CPU1, hàng 1 được gọi là csrow1 (Chip-Chọn hàng 1) trong tài liệu EDAC của Linux và kênh 0 có nghĩa là kênh bộ nhớ 0 . Tôi đã kiểm tra biểu đồ tại http://www.kernel.org/doc/Documentation/edac.txt để xem csrow1 và Kênh 0 tương ứng với DIMM_A0 (DIMMA0 trên hệ thống của tôi):
Channel 0 Channel 1
===================================
csrow0 | DIMM_A0 | DIMM_B0 |
csrow1 | DIMM_A0 | DIMM_B0 |
===================================
===================================
csrow2 | DIMM_A1 | DIMM_B1 |
csrow3 | DIMM_A1 | DIMM_B1 |
===================================
(Một ví dụ khác, nếu tôi thấy lỗi trên MC0, csrow4 và Kênh 1, tôi sẽ thay thế DIMMB2 trên CPU0.)
Tất nhiên, thực tế có hai khe DIMM được gọi là DIMMA0 trên máy chủ của tôi (một cho mỗi CPU), nhưng một lần nữa lỗi MC1 tương ứng với CPU1, được liệt kê trong "Bộ định vị ngân hàng" trong đầu ra của dmidecode:
[root@rce-8 ~]# dmidecode -t memory | grep DIMMA0 -B9 -A8
Handle 0x002E, DMI type 17, 27 bytes.
Memory Device
Array Handle: 0x002B
Error Information Handle: Not Provided
Total Width: 72 bits
Data Width: 64 bits
Size: 4096 MB
Form Factor: DIMM
Set: None
Locator: DIMMA0
Bank Locator: CPU0
Type: DDR2
Type Detail: Synchronous
Speed: 533 MHz (1.9 ns)
Manufacturer:
Serial Number:
Asset Tag:
Part Number:
--
Handle 0x003E, DMI type 17, 27 bytes.
Memory Device
Array Handle: 0x002B
Error Information Handle: Not Provided
Total Width: 72 bits
Data Width: 64 bits
Size: 4096 MB
Form Factor: DIMM
Set: None
Locator: DIMMA0
Bank Locator: CPU1
Type: DDR2
Type Detail: Synchronous
Speed: 533 MHz (1.9 ns)
Manufacturer:
Serial Number:
Asset Tag:
Part Number:
(Trên máy trạm của tôi, dmidecode thực sự hiển thị Số phần và Số sê-ri cho DIMM của tôi, rất hữu ích.)
Ngoài việc xem xét các lỗi trên bảng điều khiển và trong nhật ký, bạn cũng có thể thấy các lỗi trên mỗi MC / CPU, hàng / csrow và kênh bằng cách kiểm tra / sys / thiết bị / hệ thống / edac. Trong trường hợp của tôi, các lỗi chỉ xảy ra trên MC1, csrow1, kênh 0:
[root@rce-8 ~]# grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow1/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow2/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow2/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow3/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow3/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow4/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow4/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow5/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow5/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow6/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow6/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow7/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow7/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:6941652
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow2/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow2/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow3/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow3/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow4/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow4/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow5/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow5/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow6/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow6/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow7/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow7/ch1_ce_count:0
Tôi hy vọng ví dụ này hữu ích cho bất kỳ ai đang cố gắng xác định DIMM xấu dựa trên các lỗi EDAC. Để biết thêm thông tin, tôi khuyên bạn nên đọc tất cả tài liệu EDAC của Linux tại http://www.kernel.org/doc/Documentation/edac.txt