Ổ cứng của tôi không thành công?

41

Tôi vừa thử chạy thử nghiệm trên hdd của mình và nó không muốn tự kiểm tra. Đây là kết quả:

smartctl --attributes --log=selftest /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-32-generic] (local build)

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       697
  3 Spin_Up_Time            0x0027   206   160   021    Pre-fail  Always       -       691
  4 Start_Stop_Count        0x0032   074   074   000    Old_age   Always       -       26734
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       28
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       7432
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   097   097   000    Old_age   Always       -       3186
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       20473
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       84
193 Load_Cycle_Count        0x0032   051   051   000    Old_age   Always       -       447630
194 Temperature_Celsius     0x0022   113   099   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       16
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%      7432         92290592
# 2  Conveyance offline  Completed: read failure       90%      7432         92290596
# 3  Conveyance offline  Completed: read failure       90%      7432         92290592
# 4  Short offline       Completed: read failure       90%      7431         92290596
# 5  Extended offline    Completed: read failure       90%      7431         92290592

Vì vậy, đĩa này là thất bại?

hard-drive smart smartctl

— Michel
nguồn

Khi tôi sử dụng công cụ đồ họa, nó tự báo lỗi tự kiểm tra

— Michel

3

Các read failuretin nhắn lặp đi lặp lại thường chỉ ra một đĩa bị lỗi, vì vậy, có ...

— HBruijn

23

Michel, chào mừng bạn đến với SF, và cảm ơn vì câu hỏi đầu tiên hay. Như bạn có thể thấy nếu bạn quyết định ở lại những phần này (mà tôi hy vọng bạn sẽ làm được), một câu hỏi đầu tiên tốt là một điều hiếm và quý giá. Bạn đã có một giả thuyết phù hợp với trang web ( "ổ cứng của tôi bị lỗi "), bạn đã tìm thấy công cụ có liên quan và học cách sử dụng nó, nhưng cần một số trợ giúp trong việc diễn giải kết quả. Vì vậy, bạn đã đến đây, cung cấp cho chúng tôi tất cả các thông tin liên quan, không có rác dư thừa, và hỏi một câu hỏi đó là một mô hình của sự can thiệp. Cảm ơn bạn - hãy ở lại xung quanh!

— MadHatter hỗ trợ Monica

3

+1: Câu hỏi đầu tiên xuất sắc. Để tận dụng tối đa Lỗi Máy chủ, vui lòng đăng ký tài khoản của bạn và kiểm tra một số trang web khác trên mạng Stack Exchange . Chúng tôi hy vọng thấy bạn đóng góp nhiều nội dung chất lượng cao hơn cho Stack Exchange.

— bwDraco

43

Ổ đĩa của bạn rất hạnh phúc để tự kiểm tra; từ bản tóm tắt, nó đã thực hiện hơn năm trong số đó trong một giờ qua. Và tất cả đều thất bại, ngay từ đầu trong bài kiểm tra, với lỗi đọc.

Vâng, ổ cứng này bị lỗi. Như báo cáo nổi tiếng của Google Labs đã nói (mặc dù tôi không thể đặt tay vào một liên kết đến nó vào lúc này), nếu smartctlnói rằng ổ đĩa của bạn bị lỗi, thì có lẽ là vậy (tôi diễn giải).

Chỉnh sửa : đừng cố lưu nó. Lấy tất cả dữ liệu ra và thay thế nó.

— MadHatter hỗ trợ Monica
nguồn

9

Nếu nó thất bại, nó thất bại. Sửa chữa nó có thể là về mặt kỹ thuật, nhưng cực kỳ khó có thể có hiệu quả chi phí so với chi phí của một ổ đĩa mới.

— Sobrique

7

@Michel Một sự vắng mặt của một lỗi tự kiểm tra không phải là bằng chứng cho thấy một ổ đĩa không được thất bại, thật đáng buồn, nhưng sự hiện diện của một lỗi tự kiểm tra nên luôn luôn được coi là bằng chứng cho thấy nó được không.

— Rob Moir

1

@Michel: Bạn có thể thử thay thế cáp. Đôi khi một ổ đĩa có thể thất bại không phải vì các vấn đề trong ổ đĩa, mà là do dây nguồn hoặc cáp dữ liệu xấu.

— Thomas Padron-McCarthy

1

@ JorgeNerín: Tôi nghĩ rằng bạn đã đưa ra một quan điểm tuyệt vời, nhưng bằng chứng là cả tôi và OP đều hiểu điều đó - OP phải, vì (anh) anh ấy đã khởi xướng ít nhất năm trong số họ trong hai giờ qua. Đối với các bài kiểm tra, tôi đồng ý với bạn rằng một bài kiểm tra dài sẽ là một dấu hiệu tốt hơn cho thấy ổ đĩa đó khỏe mạnh, nhưng khi nó thất bại cả các bài kiểm tra ngắn và chuyển tải trong 10% đầu tiên của ổ đĩa, tôi nghĩ rằng chúng tôi có thể kết luận hợp lý ổ đĩa đó là bắn. Bạn hy vọng điều gì sẽ được tiết lộ bằng thử nghiệm rộng rãi hơn?

— MadHatter hỗ trợ Monica

2

@ JorgeNerín <grin> điều đó có ý nghĩa! Tôi chỉ nói như vậy bởi vì OP bắt đầu bằng cách nhân cách hóa ổ đĩa của anh ấy: " Tôi chỉ cố gắng chạy thử nghiệm trên hdd của mình và nó không muốn hoàn thành tự kiểm tra ". Tôi không nghĩ ai trong chúng ta nghĩ rằng ổ đĩa còn sống, cũng không phải là nó tự lên lịch tự kiểm tra!

— MadHatter hỗ trợ Monica

10

Để trả lời câu hỏi của bạn, một bài kiểm tra SMART thất bại là một dấu hiệu chắc chắn về lỗi ổ đĩa sắp xảy ra. Bạn nên sao lưu dữ liệu của mình và thay thế ổ đĩa càng sớm càng tốt để ngăn ngừa mất dữ liệu tiềm ẩn.

@ sj0h đã đề cập đến Đếm chu kỳ tải, rất cao ở mức 447.630. (Hầu hết các ổ đĩa cứng hiện đại được thiết kế để chịu được 600.000 chu kỳ tải / dỡ tải.) Điều này thường xảy ra do tính năng Quản lý năng lượng nâng cao (APM), cố gắng tiết kiệm điện bằng cách đỗ đầu (dỡ chúng khỏi đĩa) sau vài giây nhàn rỗi. Các đầu được tải trở lại vào đĩa khi cần thiết. Trên hầu hết các hệ thống, nơi các ổ đĩa cứng bị gián đoạn, hoạt động bật tắt, điều này có thể gây ra nhiều chu kỳ tải / không tải xảy ra. Để tắt APM, hãy chạy lệnh sau tại dấu nhắc gốc:

smartctl -s apm,off /dev/sda

Lệnh này sẽ cần được chạy mỗi khi hệ thống được đạp điện hoặc chuyển sang chế độ ngủ hoặc ổ đĩa bị tắt, vì cài đặt này không được giữ lại khi tắt ổ đĩa.

Theo kinh nghiệm của tôi, làm điều này sẽ giảm đáng kể số chu kỳ tải / dỡ tải và do đó, cơ hội bạn sẽ gặp lại loại thất bại này trong tương lai. Tuy nhiên, lưu ý rằng làm điều này làm tăng mức tiêu thụ điện năng và nhiệt độ ổ đĩa. Nếu ổ đĩa liên tục chạy ở nhiệt độ vượt quá 50 ° C, nguy cơ bị hỏng sớm sẽ tăng lên, do đó bạn có thể muốn bật APM (hoặc bật nếu tắt) trong những tháng ấm hơn.

— bwDraco
nguồn

2

Ngoài các lỗi đọc, hãy xem xét cả Đếm chu kỳ tải. Ở mức gần 500.000, điều này có thể chỉ ra một lý do cho sự thất bại, hoặc ít nhất là hao mòn chu kỳ tải cao. Có một chu kỳ tải cho mỗi phút thời gian bật nguồn. Sau khi bạn thay thế ổ đĩa, hãy đảm bảo rằng ổ đĩa mới cũng không hoạt động.

— sj0h
nguồn

Quan sát rất tốt. Làm thế nào một người có thể chẩn đoán tại sao ổ đĩa quay xuống và sao lưu mỗi phút?

— dotancohen

@dotancohen, xem câu trả lời của tôi APM là đáng trách.

— bwDraco

2

Có, bạn có 16 lĩnh vực không thể đọc được, bạn đã thử thực hiện một số thử nghiệm mà tất cả đều thất bại trong cùng một khu vực của ổ đĩa, vì vậy, hãy sao lưu nhanh, nhưng hãy nhớ rằng bạn có dữ liệu không thể truy cập được bằng cách hiện tại trong vùng lân cận các ngành 92290592, 92290596.

Bạn có thể có các khu vực có vấn đề khác, bạn vẫn không biết nếu 16 khu vực đó liên tiếp hoặc trải rộng, nếu bạn muốn chơi sau khi sao lưu, bạn có thể tự kiểm tra có chọn lọc với -t select, startlba-endlba.

Current_Pending_Sector có nghĩa là phần sụn đĩa cứng đã cố đọc nó, nhưng không thể, nó sẽ thử thêm vài lần nữa (bất cứ khi nào HĐH yêu cầu) cho đến khi thất bại và đánh dấu nó là Offline_Uncncable hoặc sẽ thay thế khu vực bị hỏng cho một khu vực dự phòng khác nếu Hệ điều hành ghi vào nó (do đó tăng Reallocated_Sector_Ct khi làm như vậy).

— Jorge Nerín
nguồn

1

Cá nhân tôi sẽ thay thế ổ đĩa. Nếu bạn, vì một số lý do chưa muốn làm điều đó, nhưng hãy nán lại ổ đĩa một lúc, bạn cần một số cách để đảm bảo rằng bạn không vô tình sử dụng các khu vực xấu cho các tệp mới.

Tôi đã có một ổ đĩa như vậy trên một máy Mac cũ chỉ quay video và quyết định rằng tôi chưa muốn thay đổi nó, vì các video này rất hay để có. Vì vậy, tôi cần phải cách ly các lỗi. Đầu tiên tôi chỉ tạo một thư mục trống cho các tệp xấu và sau đó tôi đã cố đọc tất cả các tệp hiện có trên đĩa và bất kỳ tệp nào có lỗi đều được chuyển đến thư mục tệp xấu (hy vọng chỉ không quan trọng).

Sau đó, tôi đã tạo ra rất nhiều tệp một megabyte được đặt tên duy nhất để lấp đầy ổ cứng (vì vậy tất cả không gian trống hiện nằm trong một trong các tệp 1 MB này) và sau đó lặp lại quy trình. Tất cả các tệp có lỗi trong đó, đã được chuyển đến thư mục tệp xấu và những tệp còn lại là tốt và có thể bị xóa để lấy lại không gian xấu.

Bây giờ bạn có thể sử dụng ổ đĩa lâu hơn một chút, nhưng không sử dụng nó cho những thứ quan trọng. Nó sẽ thất bại nhiều hơn và rất có thể sẽ bất tiện khi nó xảy ra.

— Thorbjørn Ravn Andersen
nguồn

1

Đây không phải là một dấu hiệu tốt. Bạn nên đảm bảo rằng nội dung của đĩa được sao lưu và không sử dụng đĩa cho bất kỳ điều gì quan trọng.

Tuy nhiên, tôi đã thấy các đĩa với các thành phần thất bại đã phân bổ lại chúng và vẫn hoạt động trong nhiều năm, vì vậy bạn có thể giữ nó trong một thời gian, ví dụ, đối với các công cụ không quan trọng hoặc sao lưu bổ sung.

Một điều cần làm sau đó là xem các tệp nào bị hỏng bởi các khu vực không thể đọc được và ghi vào các khu vực này để buộc phân bổ lại bằng đĩa (chuyển chúng từ "Current_Pending_Sector" sang "Reallocated_Sector_Ct"). Nếu sử dụng Linux, hãy xem http://smartmontools.sourceforge.net/badblockhowto.html . Khi các lĩnh vực đã được phân bổ lại, tự kiểm tra sẽ vượt qua hoặc báo cáo các lĩnh vực khó đọc hơn.

Tôi không đồng ý với hầu hết các câu trả lời ở chỗ tôi không nghĩ rằng các thành phần xấu nhất thiết phải là một dấu hiệu của sự thất bại sắp xảy ra. Như http://blog.mmueh.net/index.php/2010/12/09/luks-meets-badblocks/ nói, "mọi ổ cứng bắt đầu tạo ra các thành phần xấu tại một số điểm trong cuộc sống của nó".

— a3nm
nguồn

Mặc dù tôi đồng ý rằng sự thất bại là không chắc chắn với một khu vực xấu xảy ra, khả năng trình điều khiển bị lỗi sau khi một khu vực xấu tăng đáng kể (tôi nghĩ rằng đó là trong báo cáo google, nhưng tôi không thể tìm thấy nguồn thực tế hiện tại)

— Dennis Nolte