Cách diễn giải dữ liệu smartctl (smartmon) này

20

Chúng tôi có một máy chủ linux đã được sử dụng nhiều trong 3 năm. Chúng tôi đang chạy một số máy chủ ảo hóa trên đó, một số máy chủ không hoạt động tốt và trong một thời gian đáng kể, công suất io của máy chủ đã bị vượt quá dẫn đến iowait xấu. Nó có 4 ổ đĩa Barracuda sata 500gb được kết nối với bộ điều khiển đột kích 3com. 1 Drive có HĐH và 3 ổ còn lại là thiết lập raid-5.

Bây giờ chúng ta có một cuộc tranh luận về tình trạng của các ổ đĩa và liệu chúng có chủ động thất bại hay không.

Đây là một phần của đầu ra cho 1 trong 4 đĩa. Họ đều có số liệu thống kê tương đối giống nhau:

Số thuộc tính SMART Số sửa đổi cấu trúc dữ liệu: 10
Thuộc tính SMART cụ thể của nhà cung cấp với Ngưỡng:
ID # ATTRIBUTE_NAME FLAG GIÁ TRỊ CÔNG CỤ QUA LOẠI ĐƯỢC CẬP NHẬT WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f 118 099 006 Luôn luôn thất bại trước - 169074425
  3 Spin_Up_Time 0x0003 095 092 000 Luôn luôn thất bại - 0
  4 Start_Stop_Count 0x0032 100 100 020 Old_age Luôn luôn - 26
  5 Reallocated_Sector_Ct 0x0033 100 100 036 Luôn thất bại trước - 0
  7 Seek_Error_Rate 0x000f 077 060 030 Luôn luôn thất bại - 200009354607
  9 Power_On_Hours 0x0032 069 069 000 Old_age Luôn luôn - 27856
 10 Spin_R tem_Count 0x0013 100 100 097 Luôn luôn thất bại trước - 1
 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Luôn luôn - 26
184 Unknown_Attribution 0x0032 100 100 099 Old_age Luôn luôn - 0
187 Báo cáo_ Không chính xác 0x0032 100 100 000 Old_age Luôn luôn - 0
188 Unknown_Attribution 0x0032 100 100 000 Old_age Luôn luôn - 1
189 High_Fly_Wites 0x003a 100 100 000 Old_age Luôn luôn - 0
190 Airflow_Tem Nhiệt độ_Cel 0x0022 071 060 045 Old_age Luôn luôn - 29 (Tối thiểu trọn đời / Tối đa 26/37)
194 Nhiệt độ_Celsius 0x0022 029 040 000 Old_age Luôn luôn - 29 (0 21 0 0)
195 Phần cứng_ECC_Recover 0x001a 046 033 000 Luôn luôn cũ_age - 169074425
197 Hiện tại_Pending_Sector 0x0012 100 100 000 Old_age Luôn luôn - 0
198 Offline_Uncncable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Luôn luôn - 0

Nhật ký lỗi thông minh Phiên bản: 1
Không có lỗi được ghi lại

Giải thích của tôi về điều này là chúng tôi đã không có bất kỳ thành phần xấu hoặc dấu hiệu nào khác cho thấy bất kỳ ổ đĩa nào đang hoạt động thất bại.

Tuy nhiên, Raw_Read_Error_Rate và Seek_Error_Rate cao đang được chỉ ra là dấu hiệu cho thấy các ổ đĩa đang chết.

linux smartctl

— quan điểm
nguồn

1

Có một mô tả hay ở đây (quá dài để đăng lại, vui lòng theo liên kết): vôi-t Technology.com/wiki/Under Hiểu_SMART_Reports Trong trường hợp liên kết bị hỏng, một số trích dẫn quan trọng: "Đây là chỉ số về tỷ lệ lỗi hiện tại của Các hoạt động đọc khu vực vật lý cấp thấp. Trong hoạt động bình thường, LUÔN LUÔN có một số lỗi nhỏ [...] KHÔNG có vấn đề gì với ổ đĩa. " và "XIN hoàn toàn bỏ qua số RAW_VALUE! Chỉ Seagates báo cáo giá trị thô, có, dường như là số lỗi đọc thô, nhưng nên bỏ qua hoàn toàn."

— Konrad Gajewski

7

Theo kinh nghiệm của tôi, Seagates có những con số kỳ lạ cho hai thuộc tính SMART đó. Khi chẩn đoán Seagate, tôi có xu hướng bỏ qua những điều đó và xem xét kỹ hơn về các lĩnh vực khác như Đếm khu vực được phân bổ lại. Tất nhiên, khi nghi ngờ thay thế ổ đĩa, nhưng ngay cả Seagates hoàn toàn mới cũng sẽ có số lượng cao cho các thuộc tính đó.

— hwilbanks
nguồn

57

Đối với các đĩa Seagate (và có thể cả một số cũ từ WD), Seek_Error_Rate và Raw_Read_Error_Rate là các số 48 bit, trong đó 16 bit quan trọng nhất là số đếm lỗi và 32 bit thấp là một số hoạt động.

% python
>>> 200009354607 & 0xFFFFFFFF
2440858991
>>> (200009354607 & 0xFFFF00000000) >> 32
46

Vì vậy, đĩa của bạn đã thực hiện 2440858991 tìm kiếm, trong đó 46 thất bại. Kinh nghiệm của tôi với các ổ đĩa Seagate là chúng có xu hướng thất bại khi số lỗi vượt quá 1000. YMMV.

— sóng thần
nguồn

7

Thans cho điều này, tôi muốn tôi có thông tin đó trở lại khi tôi đặt câu hỏi ban đầu.

— xem

1

Điều này, rất hữu ích. Cứu tôi khỏi hoảng loạn.

— Halsafar

9

"Tỷ lệ tìm kiếm lỗi" và "tỷ lệ lỗi đọc thô" RAW_VALUES hầu như vô nghĩa đối với bất kỳ ai trừ hỗ trợ của Seagate. Như những người khác đã chỉ ra, các giá trị thô của các tham số như "số lượng khu vực được phân bổ lại" hoặc các mục trong nhật ký lỗi của ổ đĩa có nhiều khả năng cho thấy xác suất thất bại cao hơn.

Nhưng bạn có thể xem dữ liệu được diễn giải trong các cột GIÁ TRỊ, CÔNG VIỆC và THRESH có nghĩa là được đọc dưới dạng đồng hồ đo:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH
  7 Seek_Error_Rate         0x000f   077   060   030

Có nghĩa là tỷ lệ lỗi tìm kiếm của bạn hiện được coi là "77% tốt" và được báo cáo là một vấn đề của SMART khi nó đạt đến "30% tốt". Nó đã từng thấp đến mức "60% tốt" một lần, nhưng đã phục hồi một cách kỳ diệu kể từ đó. Lưu ý rằng các giá trị được giải thích được tính theo logic SMART của ổ đĩa và tính toán chính xác có thể hoặc không được nhà sản xuất công bố và thông thường người dùng không thể điều chỉnh.

Cá nhân, tôi coi một ổ đĩa chứa các mục nhật ký lỗi là "không thành công" và mong muốn được thay thế ngay khi chúng xảy ra. Nhưng tất cả trong tất cả, dữ liệu SMART đã trở thành một chỉ số khá yếu cho dự đoán thất bại, như một bài viết nghiên cứu được xuất bản bởi Google phát hiện.

— the-wợi
nguồn

4

Tôi nhận ra cuộc thảo luận này hơi cũ nhưng muốn thêm 2 xu của tôi. Tôi đã tìm thấy thông tin thông minh là một chỉ báo khá tốt về sự thất bại trước. Khi bạn nhận được một ngưỡng thông minh bị vấp sau đó thay thế ổ đĩa. Đó là những gì các ngưỡng đó là dành cho.

Phần lớn thời gian bạn sẽ bắt đầu thấy các thành phần xấu. Đó là một dấu hiệu chắc chắn ổ đĩa đang bắt đầu thất bại. SMART đã cứu tôi nhiều lần. Tôi sử dụng phần mềm RAID 1 và nó rất hữu ích vì bạn chỉ cần thay thế ổ đĩa bị lỗi và xây dựng lại mảng.

Tôi cũng chạy tự kiểm tra ngắn và dài hàng tuần.

smartctl -t short /dev/sda
smartctl -t long /dev/sda

Hoặc thêm /etc/smartd.conf và gửi email cho bạn nếu có lỗi

/dev/sda -s L/../../3/22 -I 194 -m someemail@somedomain
/dev/sdb -s L/../../7/22 -I 194 -m someemail@somedomain

Đảm bảo cài đặt logwatch và chuyển hướng root đến địa chỉ email và kiểm tra email hàng ngày từ logwatch. Những lá cờ bị vấp của SMARTD sẽ xuất hiện ở đó nhưng chẳng ích gì nếu không ai theo dõi thường xuyên.

— Fred Flint
nguồn

1

Có, các trường đó trông rất tệ nhưng tôi không tin (nữa) thông tin được báo cáo thông minh (máy kiểm tra của tôi có một ổ đĩa đã chết từ lâu nếu bạn đọc dữ liệu bằng smartctrl) Thực tế là bạn đã báo cáo iowait cao và các ổ đĩa đã 3 năm tuổi. Điều này là đủ để bạn thay đổi các ổ đĩa.

— Migabi
nguồn

1

Vì nhiều lý do, chúng tôi cần tối đa hóa khoản đầu tư vào phần cứng. Các iowait đã phải làm với tải vô lý, cũng như một số lỗi cấu hình chúng tôi đã thực hiện khi thiết lập hộp.

— gview

0

Xin lỗi để cam kết sự cần thiết trên bài đăng này, nhưng theo kinh nghiệm của tôi, các trường "Tỷ lệ lỗi đọc thô" và "Phần cứng ECC được khôi phục" cho ổ đĩa Seagate sẽ hoàn toàn đi khắp nơi và tăng liên tục vào phạm vi hàng nghìn tỷ đồng tại điểm chúng Sẽ quay trở về không để tiếp tục quá trình một lần nữa. Tôi có một chiếc Seagate ST9750420AS đã gặp vấn đề đó ngay từ ngày đầu và vẫn hoạt động rất tốt ngay cả sau một vài năm và hơn 3500 giờ sử dụng.

Tôi nghĩ rằng các trường đó có thể được bỏ qua một cách an toàn nếu bạn đang chạy một trong trường hợp của bạn. Chỉ cần đảm bảo hai trường báo cáo cùng một số và liên tục đồng bộ. Nếu họ không ... tốt ... Điều đó thực sự có thể có nghĩa là một vấn đề.

— Ryan Gandy
nguồn

0

Để tự động hóa các tính toán của câu trả lời này , hãy sử dụng máy tính javascript trực tuyến:

https://yksi.ml/

Điều này sẽ cho bạn biết:

Tổng số hoạt động
Số lần thao tác thất bại

Máy tính có giá trị cho Seagate:

Tìm kiếm tỷ lệ lỗi
Tỷ lệ lỗi đọc thô
Phần cứng ECC được phục hồi

Để đọc thêm về tính toán của giá trị chuẩn hóa (từ 0 đến 100 giá trị), xem bài viết này .

— Tom Hale
nguồn