Làm thế nào để tìm mô-đun bộ nhớ bị lỗi từ tin nhắn MCE?


11

Tôi đang cố gắng hiểu thông điệp MCE để tìm mô-đun bộ nhớ nào xấu trên máy chủ. Thông báo này xuất hiện trong /var/log/kern.logmột máy chủ đóng băng hai lần hôm nay.

Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error 

Tôi nghi ngờ một mô-đun bộ nhớ xấu. Máy chủ là 2x Xeon E5-2650 với các mô-đun bộ nhớ 8x8Go (8 khe cắm bộ nhớ cho mỗi cpu)

Đây là quần thể mô-đun bộ nhớ từ lshw:

 *-memory:0
      description: System Memory
      physical id: 2d
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B83AE5C2
         slot: P1_DIMMA1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P1_DIMMA2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EC309238
         slot: P1_DIMMB1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P1_DIMMB2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E9305438
         slot: P1_DIMMC1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P1_DIMMC2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305738
         slot: P1_DIMMD1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P1_DIMMD2
         width: 64 bits
 *-memory:1
      description: System Memory
      physical id: 3f
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B63A08C3
         slot: P2_DIMME1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P2_DIMME2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EA309638
         slot: P2_DIMMF1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P2_DIMMF2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E7305938
         slot: P2_DIMMG1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P2_DIMMG2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305B38
         slot: P2_DIMMH1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P2_DIMMH2
         width: 64 bits
 *-memory:2 UNCLAIMED
      physical id: 7
 *-memory:3 UNCLAIMED
      physical id: 9

Như bạn có thể nhận thấy, không có mô-đun bộ nhớ nào trên ngân hàng số 5. Vì vậy, câu hỏi của tôi là: bạn có đồng ý thông báo này là về lỗi bộ nhớ? Và nếu vậy, làm thế nào tôi có thể tìm thấy mô-đun nào để được thay thế?

Câu trả lời:


10

Các lỗi này xuất phát từ lớp EDAC - Phát hiện lỗi và sửa lỗi edac_mc của thiết bị.

Các sự kiện mà bạn đang nhận là các sự kiện CE (Lỗi chính xác). Đây là những dấu hiệu cho thấy DIMM đang bắt đầu thất bại.

EDAC đã không báo cáo bất kỳ thông tin cụ thể nào về hàng hoặc kênh bộ nhớ mà nó đề cập đến, vì vậy rất khó để nói cái nào sẽ thay thế cho đến khi cái đó bị lỗi.

nhưng hãy xem: / sys / thiết bị / hệ thống / edac / mc / mc * và điều này có thể cho bạn biết thêm một chút về hàng / dimm nào có thể là hàng bị lỗi.

Ví dụ

ls -s /sys/devices/system/edac/mc/mc0 total 0 0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb 0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count 0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count

nhìn vào trường ce_count.

còn một chú ý đáng nói :

Hệ thống vẫn có thể tiếp tục hoạt động, nhưng với độ an toàn thấp hơn. Bảo trì phòng ngừa và thay thế bộ phận chủ động của bộ nhớ DIMM thể hiện CE có thể làm giảm khả năng các sự kiện UE (lỗi không thể sửa chữa) đáng sợ và hệ thống 'hoảng loạn'.

Thông tin thêm về edac ở đây:

https://www.kernel.org/doc/Documentation/edac.txt


hoặc khởi động lại và ở màn hình khởi động GRUB, chọn memtest và điều đó có thể cung cấp cho bạn thêm một chút thông tin.
kamger

Không còn tin nhắn MCE sáng nay ở đó (không có quyền truy cập vật lý vào máy chủ), chờ nó kiểm tra edac, ý kiến ​​hay!
Matg

1

Nó có thể giúp cài đặt mcelog và chạy nó như một daemon, nó có thể giúp cung cấp các báo cáo tốt hơn. Chúng vẫn còn khó hiểu nhưng có thêm một chút thông tin để tìm ra DIMM thủ phạm.

mcelog cũng có thể xử lý các sự cố trong thời gian thực bằng cách vô hiệu hóa các trang có lỗi bộ nhớ quá mức và do đó cho bạn nhiều cơ hội hơn để giữ cho máy chạy lâu hơn cho đến khi bạn có thể khôi phục nó.


Cảm ơn, đó là những gì tôi đã làm nhưng không có nhiều lỗi kể từ bài đăng đầu tiên. Chúng tôi quyết định thay thế tất cả các DIMM.
Matg

Đôi khi các lỗi là thoáng qua và đôi khi chúng chỉ đơn giản được gắn với các vị trí rất cụ thể hiếm khi được chạm vào. Nếu các lỗi không lặp lại, cá nhân tôi sẽ không thay thế các dimms và chỉ tiếp tục theo dõi, nhưng thay thế cũng hợp lệ.
Baruch Ngay cả

1

Một số nhà cung cấp nói rằng một số lỗi có thể sửa trong một khoảng thời gian nhất định là không có hại.

Ví dụ, Oracle cho biết thay thế DIMM khi một trong các sự kiện sau diễn ra:

  • Hơn 24 lỗi có thể sửa chữa (CE) bắt nguồn trong 24 giờ từ một DIMM duy nhất và không có DIMM nào khác hiển thị các CE tiếp theo.

  • DIMM không kiểm tra bộ nhớ trong BIOS do Lỗi bộ nhớ không chính xác (UCE).

  • UCE xảy ra và điều tra cho thấy các lỗi bắt nguồn từ bộ nhớ.

Thông báo 24 lỗi trong 24 giờ.

https://docs.oracle.com/cd/E19150-01/820-4213-11/dimms.html

Cũng thế,

Nếu có nhiều hơn một DIMM đã trải qua nhiều CE, các nguyên nhân có thể khác của CE phải được loại trừ bởi một chuyên gia Hỗ trợ Mặt trời đủ điều kiện trước khi thay thế bất kỳ DIMM nào.

Về điểm cuối cùng, HP cho biết một điều tương tự có thể chỉ là phần sụn máy chủ đã phát hiện sai các lỗi bộ nhớ. Họ nói trong nhiều trường hợp, nâng cấp firmware sửa các cảnh báo dương tính giả. Điều này có thể đặc biệt đúng nếu bạn bắt đầu nhận MCE từ các DIMM khác nhau.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.