Làm thế nào để xác định nguyên nhân của sự cố hệ thống?


10

Máy chủ của tôi gặp sự cố khoảng một lần một tuần và không để lại bất kỳ manh mối nào về nguyên nhân gây ra nó. Tôi đã kiểm tra /var/log/messagesvà nó chỉ dừng ghi ở một số điểm và bắt đầu tại thông tin bài đăng trên máy tính khi tôi thực hiện khởi động lại cứng.

Có thứ gì tôi có thể kiểm tra hoặc phần mềm tôi có thể cài đặt có thể xác định nguyên nhân không?

Tôi đang chạy CentOS 7.

Đây là lỗi / vấn đề duy nhất trong tôi /var/log/dmesg: https://paste.netcoding.net/cosisiloji.log

[    3.606936] md: Waiting for all devices to be available before autodetect
[    3.606984] md: If you don't use raid, use raid=noautodetect
[    3.607085] md: Autodetecting RAID arrays.
[    3.608309] md: Scanned 6 and added 6 devices.
[    3.608362] md: autorun ...
[    3.608412] md: considering sdc2 ...
[    3.608464] md:  adding sdc2 ...
[    3.608516] md: sdc1 has different UUID to sdc2
[    3.608570] md:  adding sdb2 ...
[    3.608620] md: sdb1 has different UUID to sdc2
[    3.608674] md:  adding sda2 ...
[    3.608726] md: sda1 has different UUID to sdc2
[    3.608944] md: created md2
[    3.608997] md: bind<sda2>
[    3.609058] md: bind<sdb2>
[    3.609116] md: bind<sdc2>
[    3.609175] md: running: <sdc2><sdb2><sda2>
[    3.609548] md/raid1:md2: active with 3 out of 3 mirrors
[    3.609623] md2: detected capacity change from 0 to 98520989696
[    3.609685] md: considering sdc1 ...
[    3.609737] md:  adding sdc1 ...
[    3.609789] md:  adding sdb1 ...
[    3.609841] md:  adding sda1 ...
[    3.610005] md: created md1
[    3.610055] md: bind<sda1>
[    3.610117] md: bind<sdb1>
[    3.610175] md: bind<sdc1>
[    3.610233] md: running: <sdc1><sdb1><sda1>
[    3.610714] md/raid1:md1: not clean -- starting background reconstruction
[    3.610773] md/raid1:md1: active with 3 out of 3 mirrors
[    3.610854] md1: detected capacity change from 0 to 20970405888
[    3.610917] md: ... autorun DONE.
[    3.610999] md: resync of RAID array md1
[    3.611054] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[    3.611119] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for resync.
[    3.611180] md: using 128k window, over a total of 20478912k.
[    3.611244]  md1: unknown partition table
[    3.624786] EXT3-fs (md1): error: couldn't mount because of unsupported optional features (240)
[    3.627095] EXT2-fs (md1): error: couldn't mount because of unsupported optional features (244)
[    3.630284] EXT4-fs (md1): INFO: recovery required on readonly filesystem
[    3.630341] EXT4-fs (md1): write access will be enabled during recovery
[    3.819411] EXT4-fs (md1): orphan cleanup on readonly fs
[    3.836922] EXT4-fs (md1): 24 orphan inodes deleted
[    3.836975] EXT4-fs (md1): recovery complete
[    3.840557] EXT4-fs (md1): mounted filesystem with ordered data mode. Opts: (null)

Câu trả lời:


5

Bạn có thể kiểm tra tập tin dmesg tại /var/log/dmesg, nơi đang ghi lại các thông điệp kernel. Nhật ký tin nhắn chỉ là ghi nhật ký dịch vụ và tin nhắn ứng dụng và nếu bạn gặp lỗi kernel, các dịch vụ và ứng dụng sẽ ngừng chạy, nhưng lỗi kernel vẫn được đăng nhập trong dmesg.


Tôi đã kiểm tra dmesg và dmesg.old, cả hai chỉ chứa thông tin khởi động (khoảng 4,8 giây). "Vấn đề" duy nhất tôi có thể thấy là đĩa khởi động hoặc ổ đĩa đột kích dường như có lỗi, nhưng hệ thống sửa nó và hoạt động bất kể. Kiểm tra bài chính cho liên kết.
Brian Graham

5

Nếu bạn đã crashkernel/kdumpcài đặt và kích hoạt, bạn sẽ có thể kiểm tra kernel bị lỗi một cách dễ dàng bằng cách sử dụng crashtiện ích. Ví dụ: giả sử rằng bạn đã hủy các kết xuất kernel được lưu trong /var/crash: crash /var/crash/2009-07-17-10\:36/vmcore /usr/lib/debug/lib/modules/uname -r /vmlinux.

Hãy xem ở đâyở đây để biết thêm chi tiết.


Tôi đã sửa /dev/md1 not foundlỗi khi chạy grub2-probevà cài đặt và cấu hình crashkernel / kdump và sẽ báo cáo lại nếu / khi nó gặp sự cố.
Brian Graham

2
  • kiểm tra bộ nhớ bios
  • kiểm tra ổ cứng bios
  • Kiểm tra nhật ký ổ đĩa thông minh smartctl /dev/sda -a
  • Kiểm tra ổ đĩa thông minh
  • bỏ dmesg -wHchạy trong một cửa sổ

Tôi đã chạy thử nghiệm ổ đĩa thông minh trên cả 3 ổ đĩa, chúng đều không được sửa chữa. Tôi đã dmesg -wHchạy trong một cửa sổ (tôi giả sử cho đến khi nó gặp sự cố một lần nữa và vẫn có thể đọc kết quả đầu ra sau sự cố qua SSH). Tôi không có quyền truy cập vật lý vào máy, tôi có yêu cầu máy chủ của mình chạy bộ nhớ bios và kiểm tra ổ cứng không?
Brian Graham
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.