Trước hết, tôi nghĩ mọi người đều biết rằng ổ cứng thất bại nhiều hơn những gì các nhà sản xuất muốn thừa nhận . Google đã thực hiện một nghiên cứu chỉ ra rằng một số thuộc tính dữ liệu thô nhất định rằng trạng thái SMART của các báo cáo ổ đĩa cứng có thể có mối tương quan chặt chẽ với sự thất bại trong tương lai của ổ đĩa.
Ví dụ, chúng tôi thấy rằng sau lỗi quét đầu tiên của họ, các ổ đĩa có khả năng bị lỗi cao hơn 39 lần trong vòng 60 ngày so với các ổ đĩa không có lỗi như vậy. Lỗi đầu tiên trong phân bổ lại, phân bổ ngoại tuyến và số lượng xác suất cũng liên quan chặt chẽ đến xác suất thất bại cao hơn. Bất chấp những mối tương quan mạnh mẽ đó, chúng tôi thấy rằng các mô hình dự đoán lỗi chỉ dựa trên các tham số SMART có khả năng bị hạn chế nghiêm trọng về độ chính xác dự đoán của chúng, do một phần lớn các ổ đĩa bị lỗi của chúng tôi không có tín hiệu lỗi SMART nào.
Seagate có vẻ như đang cố làm mờ thông tin này về các ổ đĩa của họ bằng cách tuyên bố rằng chỉ phần mềm của họ mới có thể xác định chính xác trạng thái ổ đĩa của họ và bằng cách đó, phần mềm của họ sẽ không cho bạn biết các giá trị dữ liệu thô cho các thuộc tính SMART. Western kỹ thuật số đã không đưa ra yêu cầu như vậy đối với kiến thức của tôi nhưng công cụ báo cáo trạng thái của họ cũng không xuất hiện để báo cáo giá trị dữ liệu thô.
Tôi đã sử dụng HDtune và smartctl từ smartmontools để thu thập các giá trị dữ liệu thô cho từng thuộc tính. Tôi đã thấy rằng thực sự ... Tôi đang so sánh táo với cam khi nói đến một số thuộc tính nhất định. Ví dụ, tôi đã phát hiện ra rằng hầu hết các ổ đĩa Seagate sẽ báo cáo rằng chúng có hàng triệu lỗi đọc trong khi kỹ thuật số phương Tây 99% hiển thị 0 cho lỗi đọc. Tôi cũng thấy rằng Seagate sẽ báo cáo hàng triệu lỗi tìm kiếm trong khi Western Digital dường như luôn báo cáo 0.
Q : Làm thế nào để tôi bình thường hóa dữ liệu này? Có phải Seagate tạo ra hàng triệu lỗi trong khi kỹ thuật số phương Tây không sản xuất? Bài viết của Wikipedia về trạng thái SMART nói rằng các nhà sản xuất có các cách khác nhau để báo cáo dữ liệu này.
Đây là giả thuyết của tôi:
Tôi nghĩ rằng tôi đã tìm thấy một cách để bình thường hóa (đó có phải là thuật ngữ đúng không?) Dữ liệu.
Các ổ đĩa Seagate có một thuộc tính bổ sung mà các ổ đĩa Western Digital không có (Phần cứng ECC được phục hồi). Khi bạn trừ tổng số lỗi Đọc từ số đếm được khôi phục của ECC, có thể bạn sẽ kết thúc bằng 0. Điều này dường như tương đương với số "Số lỗi đọc" được báo cáo của Western Digitals. Điều này có nghĩa là Western Digital chỉ báo cáo các lỗi đọc mà nó không thể sửa trong khi Seagate đếm tất cả các lỗi đã đọc và cho bạn biết có bao nhiêu lỗi có thể sửa được.
Tôi đã có một ổ đĩa Seagate trong đó số lỗi đọc ít hơn số đếm được khôi phục của ECC và tôi nhận thấy rằng nhiều tệp của tôi đã bị hỏng. Đây là cách tôi đưa ra giả thuyết của mình. Hàng triệu lỗi tìm kiếm mà Seagate tạo ra vẫn còn là một bí ẩn đối với tôi.
Vui lòng xác nhận hoặc sửa giả thuyết của tôi nếu bạn có thêm thông tin.
Đây là trạng thái thông minh của ổ đĩa kỹ thuật số phía tây của tôi để bạn có thể thấy những gì tôi đang nói về:
james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF INFORMATION SECTION ===
Device Model: WDC WD1001FALS-00E3A0
Serial Number: WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity: 1,000,204,886,016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 179 175 021 Pre-fail Always - 4033
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 270
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 1468
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 262
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 46
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 223
194 Temperature_Celsius 0x0022 105 102 000 Old_age Always - 42
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
Chỉnh sửa: Đây là ổ đĩa Seagate mà tôi đã nói về việc gây ra hỏng dữ liệu. Dữ liệu này là từ HDTune.
HD Tune: ST3250623A Health
ID Current Worst ThresholdData Status
(01) Raw Read Error Rate 45 38 6 77882492 Ok
(03) Spin Up Time 99 98 0 0 Ok
(04) Start/Stop Count 100 100 20 640 Ok
(05) Reallocated Sector Count 100 100 36 0 Ok
(07) Seek Error Rate 85 60 30 359872048 Ok
(09) Power On Hours Count 94 94 0 6028 Ok
(0A) Spin Retry Count 100 100 97 0 Ok
(0C) Power Cycle Count 100 100 20 689 Ok
(C2) Temperature 25 55 0 25 Ok
(C3) Hardware ECC Recovered 50 47 0 201555081 Ok
(C5) Current Pending Sector 100 100 0 0 Ok
(C6) Offline Uncorrectable 100 100 0 0 Ok
(C7) Ultra DMA CRC Error Count 200 199 0 1 Ok
(C8) Write Error Rate 100 253 0 0 Ok
(CA) TA Counter Increased 100 253 0 0 Ok
Power On Time : 6028
Health Status : Ok
Thực tế là phần cứng ECC được phục hồi lớn hơn Tỷ lệ lỗi đọc thô là theo quan điểm trực quan theo quan điểm của tôi.
Đây là những gì tôi thấy là một ổ đĩa "bình thường" trong đó ECC được phục hồi khớp với Tỷ lệ lỗi đọc thô:
HD Tune: ST380011A Health
ID Current Worst ThresholdData Status
(01) Raw Read Error Rate 62 46 6 79986164 Ok
(03) Spin Up Time 98 98 0 0 Ok
(04) Start/Stop Count 100 100 20 6 Ok
(05) Reallocated Sector Count 100 100 36 0 Ok
(07) Seek Error Rate 83 60 30 210309663 Ok
(09) Power On Hours Count 93 93 0 6516 Ok
(0A) Spin Retry Count 100 100 97 0 Ok
(0C) Power Cycle Count 99 99 20 1325 Ok
(C2) Temperature 25 52 0 25 Ok
(C3) Hardware ECC Recovered 62 46 0 79986164 Ok
(C5) Current Pending Sector 100 100 0 0 Ok
(C6) Offline Uncorrectable 100 100 0 0 Ok
(C7) Ultra DMA CRC Error Count 200 188 0 18 Ok
(C8) Write Error Rate 100 253 0 0 Ok
(CA) TA Counter Increased 100 253 0 0 Ok
Power On Time : 6516
Health Status : Ok
CHỈNH SỬA:
Tôi muốn làm rõ rằng tôi biết rằng Google thường coi SMART là vô dụng. Tôi biết rằng mọi người nên sao lưu dữ liệu của họ. Tuy nhiên tôi đang kinh doanh trong việc sửa chữa các máy tính của người khác. Hầu hết mọi người không có bản sao lưu hoặc có RAID. Nó không phải là chi phí hiệu quả cho các công ty để khắc phục sự cố ổ đĩa cứng, vì vậy họ chỉ chạy chúng trên RAID cho đến khi họ chết. Tôi thấy nó hữu ích trong công việc của mình để kiểm tra trạng thái SMART của ổ cứng. Phải mất 30 giây. Nếu tôi đủ may mắn để một ổ đĩa xấu hiển thị gợi ý về sự thất bại như lỗi quét hoặc các khu vực được phân bổ lại, tôi biết để đưa ổ đĩa ra khỏi đó. Nếu không có gợi ý nào như vậy, có lẽ tôi sẽ mất nhiều giờ để khắc phục sự cố chậm và hỏng dữ liệu cho đến khi cuối cùng tôi thấy rằng ổ cứng bị hỏng.
Tôi chỉ đang cố gắng để điều chỉnh quá trình này.