Lỗi phần cứng chung APEI


9

Trong tuần qua, máy chủ của tôi (chạy Debian Jessie) đã khởi động lại hai lần. Trong nhật ký hệ thống, tôi thấy điều này trước mỗi lần khởi động lại và không có điểm nào khác:

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

Một số googling khiến tôi tin rằng điều này là để làm với RAM ECC của tôi phát hiện và phục hồi từ một lỗi. Điều này có đúng không? Nếu nó đang phục hồi, tại sao hệ thống khởi động lại? Tôi muốn ngăn hệ thống khởi động lại, nếu có thể.

Câu trả lời:


9

Có vẻ như RAM của bạn bị lỗi hoặc có lỗi đang được sửa. Tùy thuộc vào mức độ nghiêm trọng, có vẻ như các lỗi này đang ảnh hưởng đến khả năng hoạt động của nó và sau đó phải khởi động lại.

Từ vẻ ngoài của chủ đề này, bit thông báo ở phần cuối về độ dài phần lỗi quá nhỏ có thể là thủ phạm.

đoạn trích - [VĂN 1/1] efi: cper: Hỗ trợ độ dài khác nhau của Phần lỗi

Một số trường có thể được thêm vào Phần Lỗi trong thông số UEFI mới hơn. Ví dụ: các trường 'Dành riêng', 'Số thứ hạng', 'Xử lý thẻ' và 'Xử lý mô-đun' được thêm vào Phần Lỗi bộ nhớ bắt đầu từ UEFI spec 2.3. Thật không may, sẽ có thông báo cảnh báo sau nếu phát hiện lỗi sửa lỗi bộ nhớ và trường 'sửa đổi' trong struct acpi_generic_data nhỏ hơn 0x203 (UEFI spec 2.3):

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

Hành vi này gây ra lỗi đã sửa này không thể được hiển thị chính xác. Để giải quyết vấn đề, bản vá này hỗ trợ độ dài khác nhau của Phần Lỗi cho phiên bản thông số UEFI khác nhau.

Và, bản vá này sử dụng một cấu trúc được xác định trước để dọn sạch các mã trùng lặp trong hàm cper_estatus_print_section.

Với việc áp dụng bản vá này, lỗi sửa bộ nhớ có thể được hiển thị chính xác sau khi tiêm lỗi.

Đã thử nghiệm trên v3,14-RC5 với nền tảng Grantley và Intel RAStool.

Vì vậy, có vẻ như một bản vá cho lỗi cụ thể đó đang hoạt động và có thể có sẵn trong phiên bản mới hơn của kernel.


3

FYI tôi dường như có một vấn đề rất giống như thế này.

Khi nó bật ra, giải pháp là lấy bộ nhớ ra, và đặt lại nó, và mọi thứ trở lại bình thường.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.