Làm thế nào tôi có thể tìm thấy bộ nhớ có lỗi CE?


12

Trong /var/log/kern.log:

kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)

Đây là edacnhật ký, một trong những bộ nhớ có celỗi.

Tôi đã đọc tài liệu edac

Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:


            Channel 0   Channel 1
    ===================================
    csrow0  | DIMM_A0   | DIMM_B0 |
    csrow1  | DIMM_A0   | DIMM_B0 |
    ===================================

    ===================================
    csrow2  | DIMM_A1   | DIMM_B1 |
    csrow3  | DIMM_A1   | DIMM_B1 |
    ===================================

và tìm kênh lỗi:

$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0

và nó phải mc0/csrow0/ch2là tài liệu, DIMM nên DIMM_C0và có thể được tìm thấy bởi dmidecode:

Nhưng tôi không thể tìm thấy DIMM này, vì vậy tôi không biết bộ nhớ nào có vấn đề:

$ dmidecode -t memory | grep 'Locator: PROC'
        Locator: PROC 1 DIMM 2A
        Locator: PROC 1 DIMM 1D
        Locator: PROC 1 DIMM 4B
        Locator: PROC 1 DIMM 3E
        Locator: PROC 1 DIMM 6C
        Locator: PROC 1 DIMM 5F
        Locator: PROC 2 DIMM 2A
        Locator: PROC 2 DIMM 1D
        Locator: PROC 2 DIMM 4B
        Locator: PROC 2 DIMM 3E
        Locator: PROC 2 DIMM 6C
        Locator: PROC 2 DIMM 5F

Có 12 vị trí và 9 vị trí có bộ nhớ.

Vậy làm thế nào tôi có thể biết bộ nhớ nào có vấn đề?


Phần bổ sung:

System Information
        Manufacturer: HP
        Product Name: ProLiant DL180 G6

Đây là loại máy chủ gì? Nhà sản xuất máy chủ và mô hình.
ewwhite

@ewwhite, xin chào, tôi đã cập nhật câu hỏi với thông tin hệ thống.
Tanky Woo

Bạn đang chạy hệ điều hành nào?
ewwhite

@ewwhite OS là Ubuntu 12.04, Kernel là3.10.20
Tanky Woo

Ồ, tôi xin lỗi ... Ubuntu không thực sự được hỗ trợ trên phần cứng này , vì vậy bạn sẽ mất khả năng giám sát nó đúng cách bằng cách không sử dụng RHEL / CentOS / Debian / SuSE ...
ewwhite

Câu trả lời:


8

Vấn đề DIMM của bạn có khả năng - Locator: PROC 1 DIMM 5F

CPU # 0 Kênh # 2_DIMM # ​​0 có nghĩa là:

PROC 1, 
1D,2A = Channel 0  
3E,4B = Channel 1
5F,6C = Channel 2

5F = DIMM 0
6C = DIMM 1

Biên tập:

Khi đặt câu hỏi, nhiều thông tin luôn tốt hơn ... Có nhà sản xuất và mô hình máy chủ sẽ đơn giản hóa việc này:

Đây là sơ đồ bộ nhớ từ Quickspecs HP ProLiant DL180 G6 :

nhập mô tả hình ảnh ở đây

Tôi đề nghị rằng DIMM trong khe CPU số 1 là chính xác ... Nhưng đây là phần cứng của HP. Bạn không cần phải đoán !!

Bạn nên sử dụng các tác nhân quản lý của HP, vì họ có thể cảnh báo và cung cấp các chi tiết cụ thể về nền tảng về tình trạng và tình trạng phần cứng ...

[root@veloce ~]# hpasmcli
HP management CLI for Linux (v2.0)
Copyright 2008 Hewlett-Packard Development Group, L.P.

--------------------------------------------------------------------------
This server ProLiant DL180 G6  , is a Proliant 100 Series Server.
NOTE: Some hpasmcli commands may not be supported on 100 series servers.
      Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show dimm
Cartridge #:    0
Processor #:    1
Module #:       2
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       1
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       4
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

Cartridge #:    0
Processor #:    1
Module #:       6
Present:        Yes
Form Factor:    fh
Memory Type:    5h
Size:           4096 MB
Speed:          1333 MHz
Status:         N/A

cảm ơn, có bất kỳ tài liệu liên quan?
Tanky Woo

@TankyWoo Vâng, xem ở trên.
ewwhite

PROC1 DIMM 5Fkhông có bộ nhớ. Vì vậy, bạn có nghĩa là vị trí không thực sự được xác nhận? Tôi nên thêm một gương deb hp và cài đặt hpamscliđể có DIMM đúng không?
Tanky Woo

Tôi đã cài đặt hp-health, và StatusN/Atương tự như sản lượng dán của bạn.
Tanky Woo

Chạy hplog -vđể kiểm tra các mục trong nhật ký HP IML.
ewwhite
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.