Kiểm tra lỗi đĩa cứng / dấu hiệu lỗi trên Máy chủ CentOS


14

Cách tốt nhất để kiểm tra lỗi ổ cứng và các dấu hiệu lỗi sớm trên CentOS là gì?


1
kiểm tra thường xuyên như thế nào? hàng tuần hàng ngày?
inac

Câu trả lời:


3

Tôi khuyên bạn nên cài đặt smartmon ( http://sourceforge.net/apps/trac/smartmontools/wiki ) cho máy của bạn, đây là một số phần mềm có thể kiểm tra sức khỏe của các ổ đĩa của bạn nếu không nó sẽ kiểm tra / var / log / message hoặc / var / log / syslog cho bất kỳ đề cập nào về lỗi scsi


Smartmon có vẻ như vậy, mặc dù các số liệu thống kê của nó đề cập đến việc nó chỉ bắt được 60% các ổ đĩa bị hỏng .. nếu tôi cài smartmon để quét hàng ngày, điều này có thực sự giúp hdd chết nhanh hơn - đó là một chiếc 7200.10?
inac

@inac smartmon sẽ giúp hdds chết nhanh hơn? Bạn đã đọc nó ở đâu? Vui lòng thêm một URL.
030

2
dmesg

Kernel sẽ ghi lại bất kỳ thông báo chẩn đoán nào về các thiết bị I / O, vì vậy bạn có thể kiểm tra các tin nhắn đó bằng lệnh dmesg.


nhưng bạn phải chạy thủ công hoặc đổ cronjob dmesg này vào vi?
inac

hoặc. bạn có thể tạo một tập lệnh để kết xuất nó với "dmesg> dmesg.dump.txt" và chạy nó hàng ngày với cron.
Banjer

1

Bạn có thể chạy fsck trên thiết bị để kiểm tra lỗi.


0

Như Paul nói, nhật ký SMART là một nơi tốt để kiểm tra.

Tôi cũng khuyên bạn nên chạy BadBlocks . Nếu bạn đã có thẻ RAID, bạn có thể phải sử dụng chức năng giám sát đó.


0

Giám sát SMART là một cách tốt. Là root, smartctl -a /dev/hdatrong đó hda là ổ đĩa bạn muốn ... có thể là hdb, sda, v.v. Cũng khuyên bạn nên đặt địa chỉ email của mình trong / etc / bí danh là người sẽ nhận được thư gốc.

Đó là một câu trả lời rất mơ hồ. Nếu bạn có một máy chủ được tạo bởi bất kỳ nhà sản xuất lớn nào (Dell, HP, v.v.), rất có thể có khả năng giám sát tốt hơn.


0

Bạn có thể thử kiểm tra đầy đủ phân vùng / dev / sda1 (ví dụ) như

fsck -f /dev/sda1

hoặc, thử kiểm tra ghi không đọc mô tả đầy đủ của phân vùng đã cho

badblocks -vn /dev/sda1

/dev/sda1 is mounted; it's not safe to run badblocks!
030

e2fsck: Cannot continue, aborting.
030

@ 030 Thả xuống một runlevel nơi đĩa chính không được gắn kết.
awiebe
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.