Làm cách nào để diễn giải các thông điệp MCE?


10

Tôi đã nhận thấy một loạt các lỗi vừa mới xuất hiện /var/log/messagestrên một trong các máy chủ của chúng tôi (bên dưới). Tuy nhiên, máy khách mce dường như ít chắc chắn hơn về nguồn lỗi so với các mục được giải mã trong syslog. Có một số loại khóa để sử dụng để giải thích đầu ra MCE?

Nov 12 04:19:19 areion kernel: [14698753.176035] Machine check events logged
Nov 12 04:19:19 areion mcelog: HARDWARE ERROR. This is *NOT* a software problem!
Nov 12 04:19:19 areion mcelog: Please contact your hardware vendor
Nov 12 04:19:19 areion mcelog: MCE 0
Nov 12 04:19:19 areion mcelog: CPU 0 BANK 8
Nov 12 04:19:19 areion mcelog: MISC 640738dd0009159c ADDR 96236c6c0
Nov 12 04:19:19 areion mcelog: TIME 1352711959 Mon Nov 12 04:19:19 2012
Nov 12 04:19:19 areion mcelog: MCG status:
Nov 12 04:19:19 areion mcelog: MCi status:
Nov 12 04:19:19 areion mcelog: MCi_MISC register valid
Nov 12 04:19:19 areion mcelog: MCi_ADDR register valid
Nov 12 04:19:19 areion mcelog: MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR
Nov 12 04:19:19 areion mcelog: Transaction: Memory read error
Nov 12 04:19:19 areion mcelog: STATUS 8c0000400001009f MCGSTATUS 0
Nov 12 04:19:19 areion mcelog: MCGCAP 1c09 APICID 20 SOCKETID 1
Nov 12 04:19:19 areion mcelog: CPUID Vendor Intel Family 6 Model 44

Tất cả các lỗi dường như được kết nối với cùng một ngân hàng bộ nhớ:

areion:~# awk -F'mcelog:' '/mcelog:.*BANK/{ print $2; }' < /var/log/messages |uniq
 CPU 0 BANK 8 

Tôi có trình nền mcelog đang chạy và khi tôi kiểm tra thông tin lỗi, có vẻ như không biết lỗi đến từ đâu. Chỉ có chúng được liên kết với CPU0(chúng tôi chỉ có một CPU trong hộp này):

Memory errors
SOCKET 1 CHANNEL any DIMM any
corrected memory errors:
        77 total
        77 in 24h
uncorrected memory errors:
        0 total
        0 in 24h
Per page corrected memory statistics:
359ffc000: total 2 2 in 24h online

3b93cc000: total 2 2 in 24h online

3ce45c000: total 2 2 in 24h online

96236c000: total 20 20 in 24h online triggered

96545c000: total 9 9 in 24h online

96a82c000: total 9 9 in 24h online

96a8ec000: total 1 1 in 24h online

96fb6c000: total 15 15 in 24h online triggered

9c2edc000: total 15 15 in 24h online triggered

9c5eac000: total 1 1 in 24h online

9c6a1c000: total 1 1 in 24h online

Tôi không hiểu rõ cách tôi diễn giải thông tin này. Một mặt, ứng dụng khách mce không chỉ ra kênh hoặc DIMM, nhưng thông báo được giải mã cho biết các lỗi xảy ra trên DIMM 8. dmesgdường như chỉ ra rằng chỉ có 42 tin nhắn được ghi lại:

[14698753.176035] Machine check events logged
[14698753.629174] Machine check events logged
[14698815.338595] __ratelimit: 38 callbacks suppressed
[14698815.338628] Machine check events logged
[14698816.020797] Machine check events logged

Tôi dường như nhận được các tin nhắn hỗn hợp, điều này khiến tôi tự hỏi những giả định nào được đưa ra dựa trên thông tin được báo cáo từ các nguồn khác nhau.

Thông tin linh tinh:

areion:~# grep 'model name' /proc/cpuinfo |uniq
model name      : Intel(R) Xeon(R) CPU           X5670  @ 2.93GHz

areion:~# apt-cache policy mcelog |grep Installed
  Installed: 1.0~pre3-3

areion:~# lsb_release -a
No LSB modules are available.
Distributor ID: Debian
Description:    Debian GNU/Linux 6.0.6 (squeeze)
Release:        6.0.6
Codename:       squeeze

Câu trả lời:


2

Bạn có thể muốn thử thay thế DIMM trong câu hỏi (CPU 0, SOCKET 8) và xem liệu các thông báo MCE có tiếp tục được tạo không.

Gói mcelog được cấu hình với một số ngưỡng mặc định cho các sự kiện MCE khác nhau xảy ra theo thời gian. Kiểm tra /etc/mcelog/mcelog.confđể biết chi tiết. Đối với lỗi trang bộ nhớ, ngưỡng là 10 sự kiện trong vòng 24 giờ. (Tôi không thực sự chắc chắn con số này đến từ đâu nhưng có lẽ đó là một điểm tham chiếu hợp lý). Bài đăng của bạn đề cập đến 77 sự kiện có thể sửa được trong 24 giờ đối với toàn bộ trang, do đó, rất có thể DIMM đã phát triển một vấn đề có thể hoặc không thể biến thành vấn đề nghiêm trọng hơn.

Tôi sẽ không quá buồn về việc nhận thông tin không thống nhất từ ​​các nguồn khác nhau. Nói chung tôi đã thấy rằng bất cứ điều gì ở cấp độ phần sụn là nền tảng cụ thể đẹp (cụ thể là cho mô hình phần cứng cụ thể đó). Nguyên tắc cơ bản của tôi đối với các vấn đề liên quan đến phần sụn là các công cụ của nhà cung cấp thường chính xác nhất, nhưng ít sử dụng nhất. Các công cụ nguồn mở chung chung hơn dễ làm việc hơn, nhưng có thể không cung cấp đủ thông tin để hiển thị chính xác những gì đang diễn ra.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.