Mce mce: [Lỗi phần cứng]: Các sự kiện kiểm tra máy được ghi nhật ký xuất hiện trong syslog. Tôi nên làm gì?


19

Tôi đã cài đặt phiên bản mới nhất của OSSEC (2.8.1) và tôi cũng đã bật thông báo email. Và tôi đang nhận được vô số các loại thông báo này nói rằng có Lỗi Phần cứng và một cái gì đó về mce:

OSSEC HIDS Notification.
2015 Apr 04 20:09:22

Received From: Bath-Towel->/var/log/syslog
Rule: 1002 fired (level 2) -> "Unknown problem somewhere in the system."
Portion of the log(s):

Apr  4 20:09:21 Bath-Towel kernel: [ 1873.680872] mce: [Hardware Error]: Machine check events logged



 --END OF NOTIFICATION

Vậy chính xác điều này có nghĩa là gì? Mce đứng để làm gì? Và đây có phải là lỗi phần cứng rõ ràng bất cứ điều gì mà tôi nên lo lắng?


Thông tin hệ điều hành:

Description:    Ubuntu 14.10
Release:    14.10

Bạn sẽ cần phải đọc một chút về ossec, xem các quy tắc - ossec-docs.readthedocs.org/en/latest/manual/rules-decoders . Giao diện web giúp vì nó có một số giải thích - ossec.net/wiki/index.php/OSSECWUI:Install
Panther


ossec có lẽ được hỗ trợ kém hoặc lạc đề ở đây vì nó không có trong kho ubfox
Panther

1
Đây không phải là về OSSEC. Bạn nhận được thông báo đó vì OSSEC tìm thấy từ "lỗi" trong syslog. Mặc dù tôi không nghĩ nó lạc đề, nhưng có lẽ bạn sẽ nhận được nhiều trợ giúp hơn từ Unix & Linux hoặc Server Fault .
Eric Carvalho

4
@ bodhi.zazen Tất cả những gì phải làm để có chủ đề được chạy trên Ubuntu. Bây giờ điều đó không có nghĩa là bạn sẽ nhận được câu trả lời tất nhiên.
Seth

Câu trả lời:


23

Kiểm tra ngoại lệ máy :

Một Máy Kiểm tra ngoại lệ (MCE) là một loại lỗi phần cứng máy tính xảy ra khi đơn vị xử lý trung tâm của máy tính phát hiện một vấn đề phần cứng.

Máy tính của bạn gặp lỗi phần cứng và kernel đã ghi lại một sự kiện trong bộ đệm. Bạn có thể sử dụng mcelogđể đăng nhập và xem các sự kiện kiểm tra máy. Từ mcelogtrang web :

CPU X86 báo cáo lỗi được CPU phát hiện dưới dạng sự kiện kiểm tra máy (MCEs). Đây có thể là lỗi dữ liệu được phát hiện trong bộ nhớ CPU, trong bộ nhớ chính bởi bộ điều khiển bộ nhớ tích hợp, lỗi truyền dữ liệu trên bus phía trước hoặc kết nối CPU hoặc các lỗi bên trong khác. Nguyên nhân có thể có thể là bức xạ vũ trụ, nguồn cung cấp năng lượng không ổn định, sự cố làm mát, phần cứng bị hỏng, hệ thống chạy không đúng quy cách hoặc không may mắn.

Hầu hết các lỗi có thể được CPU sửa chữa bằng các cơ chế sửa lỗi bên trong. Lỗi không thể khắc phục gây ra ngoại lệ kiểm tra máy có thể giết chết các quy trình hoặc làm hoảng loạn máy. Một số lượng nhỏ các lỗi được sửa thường không phải là nguyên nhân gây lo lắng, nhưng một số lượng lớn có thể chỉ ra thất bại trong tương lai.

Khi xảy ra lỗi được sửa hoặc khôi phục, nhân x86 ghi một bản ghi mô tả MCE vào bộ đệm vòng bên trong có sẵn thông qua thiết bị / dev / mcelog. mcelog lấy ra các lỗi từ / dev / mcelog, giải mã chúng thành định dạng có thể đọc được của con người và in chúng trên đầu ra tiêu chuẩn hoặc tùy ý vào nhật ký hệ thống.

Nếu bạn không nhận thấy bất kỳ sự cố nào, có thể lỗi đã được sửa thành công. Tuy nhiên, tôi khuyên bạn nên cài đặt mcelogđể theo dõi các sự kiện như vậy:

sudo apt-get install mcelog

Các sự kiện sẽ được đăng nhập vào /var/log/mcelog. Bạn cũng có thể chạy:

sudo mcelog --client

để truy vấn các mcelogdaemon cho các lỗi.


2
Tôi tự hỏi tại sao lỗi MCE không chỉ được ghi trực tiếp vào nhật ký hệ thống ... có lẽ là một lý do chính đáng, có thể
Xen2050

2
@ Xen2050 Bởi vì việc giải mã tin nhắn phụ thuộc vào kiến ​​trúc và nó không phải lúc nào cũng được các nhà sản xuất phần cứng ghi lại. Lỗi có thể được tạo ra ngay cả bởi bus PCIe.
Mircea Vutcovici

4
@ Xen2050: Trên máy Fedora 25 của tôi, các tin nhắn MCE được ghi vào tạp chí, tôi có thể thấy chúng với journalctl -b.
Martin Uting
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.