Có một công cụ kiểm tra tra tấn ổ đĩa tốt?


17

Gần đây tôi đã bị hỏng hệ thống tập tin kỳ lạ và hiếm mà tôi nghi ngờ là lỗi của SSD. Tôi đang tìm kiếm một công cụ kiểm tra tra tấn ổ đĩa tốt. Một cái gì đó có thể ghi vào toàn bộ đĩa, sau đó quay lại và đọc nó để tìm ghi bay, các khối bị hỏng, các khối được hoàn nguyên về các phiên bản cũ hơn và các lỗi khác. Điều này sẽ được nhiều hơn những gì badblockslàm. Có một công cụ như vậy?

Lưu ý Tôi không tìm kiếm điểm chuẩn hiệu suất và đã kiểm tra trạng thái SMART; nói lành mạnh và không có khối xấu báo cáo.


1
Bạn đã thử chưa? iozone.org
positron

1
Btw, bạn đã không cho biết phần cứng hệ điều hành / hệ thống nào bạn đang sử dụng. (Các) SSD đã được báo cáo để trải nghiệm sự hỏng hóc mà bạn đang nói về một số box Mac OS X khi được cấu hình để tắt nguồn ổ cứng thường xuyên để tiết kiệm năng lượng. Điều này sẽ gây ra tham nhũng. Tôi sẽ tưởng tượng điều tương tự có khả năng xảy ra trong các combo hệ điều hành / phần cứng khác, nếu ổ đĩa bị buộc phải ngủ thông qua một ổ đĩa cứng được cấp cho ổ SSD. Tôi sẽ kiểm tra cấu hình hệ thống của bạn trước khi ghi SSD của bạn bằng kiểm tra ổ đĩa.
Cánh Tang Wong

1
@WingTangWong, wow. Tôi đã sẵn sàng rằng nhiều ổ SSD bị hỏng khi mất điện, nhưng khi được yêu cầu đi ngủ? Đó là một ổ đĩa lỗi. Tôi sẽ để mắt đến điều này. Tôi đang sử dụng Linux và không được ngủ ngoại trừ có thể khi tôi tạm dừng hệ thống ...
psusi

Câu trả lời:


10

Có thể là quá mức cần thiết nhưng có Phoronix Test Suite . Cũng có bonnie++, cũng như hdparm.

Tôi thường sử dụng hdparm, ví dụ:

% hdparm -Tt /dev/hdb
/dev/hdb:
 Timing buffer-cache reads:   128 MB in  1.25 seconds =102.40 MB/sec
 Timing buffered disk reads:  64 MB in 16.70 seconds =  3.83 MB/sec

Tôi sẽ không gọi hdparmmột bài kiểm tra tra tấn nhưng nó cho bạn ý tưởng sơ bộ về hiệu suất tổng thể của các ổ đĩa.

Xác định sức khỏe ổ đĩa

Sau khi bạn tra tấn ổ đĩa, bạn có thể sử dụng lệnh này để kiểm tra sức khỏe chung của ổ đĩa:

% sudo udisks --dump | grep -A 24 Updates
 Attribute       Current|Worst|Threshold  Status   Value       Type     Updates
===============================================================================
 raw-read-error-rate         103| 99| 34   good    5854752     Pre-fail Online 
 spin-up-time                100| 99|  0    n/a    0           Pre-fail Online 
 start-stop-count             98| 98| 20   good    2785        Old-age  Online 
 reallocated-sector-count    100|100| 36   good    0 sectors   Pre-fail Online 
 seek-error-rate              72| 60| 30   good    25872884688 Pre-fail Online 
 power-on-hours               89| 89|  0    n/a    424.4 days  Old-age  Online 
 spin-retry-count            100|100| 97   good    0           Pre-fail Online 
 power-cycle-count            98| 98| 20   good    2753        Old-age  Online 
 attribute-184               100|100| 99   good    0           Old-age  Online 
 reported-uncorrect          100|100|  0    n/a    0 sectors   Old-age  Online 
 attribute-188               100| 96|  0    n/a    0           Old-age  Online 
 high-fly-writes             100|100|  0    n/a    0           Old-age  Online 
 airflow-temperature-celsius  58| 42| 45 FAIL_PAST 42C / 108F  Old-age  Online 
 g-sense-error-rate          100|100|  0    n/a    124         Old-age  Online 
 power-off-retract-count     100|100|  0    n/a    15          Old-age  Online 
 load-cycle-count              1|  1|  0    n/a    248327      Old-age  Online 
 temperature-celsius-2        42| 58|  0    n/a    42C / 108F  Old-age  Online 
 hardware-ecc-recovered       45| 38|  0    n/a    5854752     Old-age  Online 
 reallocated-event-count      89| 89| 30   good    14877766723263 Pre-fail Online 
 current-pending-sector      100|100|  0    n/a    0 sectors   Old-age  Online 
 offline-uncorrectable       100|100|  0    n/a    0 sectors   Old-age  Offline
 udma-crc-error-count        200|200|  0    n/a    0           Old-age  Online 
 attribute-254               100|100|  0    n/a    0           Old-age  Online 

Công cụ bảo trì / sức khỏe đĩa

Chúng tôi đã thành công tốt đẹp khi sử dụng 2 công cụ sau đây nơi tôi làm việc. HDAT2 & Spinrite . Cái sau là một công cụ thương mại nhưng cái trước, HDAT2, là một dự án mã nguồn mở.

Dưới đây là một vài ảnh chụp màn hình của HDAT2:

ss # 1 HDAT2

ss # 2 HDAT2

Bạn phải khởi động lại hệ thống của mình vào cả hai thứ này để nó ngoại tuyến trong khi bạn đang thực hiện các thao tác này nhưng cả hai đều phục hồi các ổ đĩa bị lỗi hoặc đang bắt đầu có lỗi. Giao diện người dùng trong HDAT2 hơi khó điều hướng, chúng tôi thường sử dụng các lựa chọn mặc định cho hầu hết các phần và cố gắng không đi lang thang quá xa từ đó.


Ba đầu tiên bạn đề cập là điểm chuẩn hiệu suất. Đã kiểm tra trạng thái SMART và nó tốt khi không có thành phần xấu, vì vậy có vẻ như HDAT2 không phải là thứ tôi đang tìm kiếm.
psusi

Tôi sẽ không loại bỏ HDAT2, chúng tôi đã chạy chkdsks và chúng cũng sạch, nhưng đĩa vẫn không khởi động được, chạy HDAT2 có thể tìm thấy các vấn đề bề mặt với đĩa mà nó có thể sửa chữa đủ để ổ đĩa có thể khởi động.
slm

Một nhận xét muộn, nhưng tôi đang cố gắng tìm mã nguồn thành HDAT2, nhưng không thành công. Có một sự thay đổi cấp phép gần đây?
i336_

4

bonnie ++ xuất hiện trong tâm trí:

Vì vậy, tùy thuộc vào cấu hình phần cứng của hộp của bạn:

bonnie++ -d /path/to/mounted/ssd -r your-system-ram-size-in-MB

Thí dụ:

# For a 32GB system with the SSD formatted and mounted at /mnt/mounted-ssd-001
bonnie++ -d /mnt/mounted-ssd-001 -r 32000

Nó sẽ cung cấp cho thiết bị của bạn một bài kiểm tra căng thẳng tốt. Bạn có thể tùy chỉnh nó là tốt.

Lưu ý, với ổ SSD, khi xảy ra tình trạng chặn khối xấu, phần cứng ổ đĩa có thể được tự động lấy lại, tùy thuộc vào ổ đĩa bạn đang làm việc. Ngoài ra, một bài kiểm tra tra tấn ăn hết tuổi thọ ghi của SSD của bạn. Vì vậy, sử dụng theo ý của bạn.

BIÊN TẬP:

Thêm một lưu ý về lỗi SSD, vì nó đã chỉ ra rằng Bonnie ++ kiểm tra căng thẳng, nhưng không theo dõi lỗi. Cách SSD "ánh xạ lại các khối xấu" khác với cách các ổ đĩa cứng thực hiện ánh xạ lại. Làm thế nào nó đi về nó phụ thuộc hoàn toàn vào thương hiệu / kiểu dáng / mẫu SSD mà bạn có:

  • (Các) SSD giá rẻ chỉ bị lỗi, vì chúng không có dung lượng dự phòng để sắp xếp lại, hoặc vì chúng không có phương tiện để phân tách các khối flash bị lỗi. Họ sẽ chỉ treo hoặc đi ngoại tuyến và sẽ không quay lại trực tuyến.
  • (Các) SSD tầm trung không có dung lượng dự phòng có thể tạo cảnh báo Smartd hoặc thậm chí có thể tạo ra lỗi thiết bị chặn cấp độ hệ điều hành khi phát hiện thấy khối bị lỗi. Tuy nhiên, khi xảy ra lỗi, kích thước đã đăng ký của SSD sẽ thay đổi. Điều này có thể dẫn đến lỗi và thiết bị bị hệ điều hành ngoại tuyến hoặc nó có thể khiến thiết bị bị treo và cần phải được kéo ra và lắp lại để thiết bị được nhận ra. Khi đăng ký lại, kích thước khối khả dụng của thiết bị sẽ bị giảm.
  • (Các) SSD cao cấp có dung lượng dự phòng sẽ ánh xạ lại các khối xấu phía sau hậu trường và có thể tạo ra các cảnh báo / cảnh báo ở cấp độ hệ điều hành. Khi hết dung lượng dự phòng, thiết bị có thể sẽ bị lỗi dọc theo các dòng của SSD tầm trung.

Khi SSD tự thay đổi kích thước do các khối xấu bị cô lập, bạn có thể cần thực hiện các thao tác sau để khôi phục ổ đĩa, nếu phần sụn của ổ đĩa không tự động thực hiện các cập nhật thích hợp:

http://cransities.intel.com/message/145676

Trừ khi công cụ kiểm tra căng thẳng và ghi nhật ký lỗi được thiết kế riêng với (các) SSD, nếu không, bạn chỉ đang sử dụng hết tuổi thọ của thiết bị.

BIÊN TẬP:

Dựa trên thông tin từ các câu trả lời ở trên, đề nghị thay thế cáp bằng một cái tốt hơn hoặc thay thế ổ đĩa (thay thế RMA / Warrantee), vì loại lỗi hệ thống tập tin hệ điều hành đó là không bình thường.

Ngoài ra, nếu ổ đĩa của bạn hỗ trợ nó, bạn có thể tăng dung lượng dành cho xử lý lỗi:

http://www.thomas-krenn.com/en/wiki/SSD_Over-provisioning_USE_hdparm


Đó là một điểm chuẩn hiệu suất. Nó có thể cho ổ đĩa tập luyện, nhưng tôi không nghĩ rằng nó phát hiện ra lỗi.
psusi

Cách thức hoạt động của SSD, phát hiện lỗi có một trong một số hình thức, tùy thuộc vào kiểu dáng / kiểu dáng của SSD: Lỗi Smartd nếu một khối được ánh xạ lại và sử dụng dung lượng dự phòng (không có lỗi), dung lượng của thiết bị là giảm do một phần của bộ lưu trữ flash bị lỗi (có thể gây ra lỗi smartd, có thể gây ra lỗi hệ thống tập tin, có thể khiến thiết bị treo xe buýt bằng cách ngoại tuyến. Khi kéo / chèn lại, ổ đĩa lại bị xóa, nhưng có thể cần phải định dạng lại ) và SSD hoàn toàn có thể bị treo mà không cần ánh xạ lại (thiết bị không phản hồi ngay cả sau khi lắp lại). Con đường thất bại không tương đương với HD
Wing Tang Wong

1
các lỗi không được phát hiện bởi ổ đĩa, do đó cần một công cụ kiểm tra. Nó biểu hiện bằng hệ thống tập tin được nhắc lại ro và e2fsck tìm và sửa rất nhiều lỗi trong siêu dữ liệu. Ngoài ra, tôi đã có một số tệp gói git kho lưu trữ bị hỏng. Đó là một tham nhũng thầm lặng xảy ra có thể một hoặc hai tháng một lần. Lúc đầu, tôi nghĩ rằng nó có thể là một lỗi liên quan đến TRIM vì tôi không nhớ điều này xảy ra trước khi tôi kích hoạt nó, vì vậy tôi đã tắt nó đi và nó vẫn xảy ra.
psusi

Một vài vấn đề tiềm ẩn: cáp ổ đĩa xấu hoặc ổ đĩa xấu. Bạn có thể kiểm tra cáp ổ đĩa xấu bằng cách thay thế cáp bằng một cái khác. Tôi đã có điều này trong quá khứ và thay thế bằng một cáp spec tốt hơn làm việc. Trong trường hợp ổ đĩa xấu, RMA hoặc gửi để sửa chữa bảo hành.
Wing Tang Wong

1
vấn đề là chứng minh rằng đó là một ổ đĩa xấu (hoặc thực sự là một lỗi trong phần sụn) và không nói là lỗi trong kernel. Nếu đó là một dây cáp xấu, nó sẽ biểu hiện như lỗi sata ecc chứ không phải là tham nhũng im lặng ngẫu nhiên.
psusi

3

Tôi hiểu rằng điều này đã hơn một năm tuổi, nhưng vì lợi ích của bất kỳ ai đọc chủ đề này trong tương lai, tôi hy vọng phần mềm bạn yêu cầu (d) chưa tồn tại bên ngoài HP Labs:

"Hiểu về tính mạnh mẽ của SSD trong Lỗi nguồn" https://www.usenix.org/system/files/conference/fast13/fast13-final80.pdf

Thay thế việc tiêm lỗi nguồn bằng một sự kiện lựa chọn (hoặc không có gì, trong trường hợp phát hiện các lỗi phần sụn không liên tục), và có vẻ như phần mềm này sẽ phát hiện ra nó. Thật không may, tôi không nghĩ rằng có một sự thay thế, có lẽ HP sẽ không viết một cái gì đó trong nhà.

Thật là xấu hổ, vì tôi cũng cần một cái gì đó như thế này để chứng minh các vấn đề trong môi trường ảo; nơi tôi nghi ngờ đã viết không thực sự đi đến đĩa vật lý. Sẽ thật tuyệt khi có thể nhấn mạnh kiểm tra ngăn xếp lưu trữ như thế này, không nhất thiết phải là SSD. Tôi vẫn chưa tìm thấy thứ gì phù hợp.


2
(từ nhận xét ẩn danh) Mặc dù phần cứng của mọi thứ sẽ cần được sao chép, tôi không hiểu lý do tại sao phần xác minh phần mềm của bài báo đó không thể được sao chép bằng fio ở chế độ máy khách / máy chủ có kích hoạt. Xem github.com/axboe/fio/blob/master/HOWTO (Xác minh 10.0 và kích hoạt) để biết chi tiết. fio có thể được thực hiện để sử dụng I / O không đồng bộ hoặc định kỳ đồng bộ hóa I / O theo nhiều kiểu hữu ích mà sau này có thể được xác minh (thậm chí có thể lưu tệp trạng thái để xác minh có thể diễn ra sau các yêu cầu fio khác nhau).
Archemar 7/03/2015

1

Sử dụng công cụ kiểm tra của nhà sản xuất, cách tốt nhất để kiểm tra HD, vì nó có thể truy cập vào các bài kiểm tra cấp thấp, ánh xạ lại các thành phần xấu, kiểm tra tất cả trạng thái sức khỏe thông minh (đặc biệt đối với SSD, hầu hết chúng ta đều biết nhiều đăng ký nhưng có thể giúp nhà sản xuất thấy trạng thái đĩa cứng)

hirensCD có nhiều công cụ kiểm tra, nhưng tôi nghĩ rằng nó chưa được cập nhật lên các công cụ hỗ trợ SSD, vì vậy hãy kiểm tra trực tiếp trang web của nhà sản xuất. Một số hỗ trợ linux, một số khác có thể yêu cầu một cửa sổ liveCD (kiểm tra lại hirenCd) hoặc khởi động từ một ổ đĩa (freedo, HĐH đặc biệt, v.v.)

Hầu hết các công cụ HD cũ hơn không tốt cho việc kiểm tra SSD, vì một khu vực không bao giờ ở cùng một nơi, được lập bản đồ động bởi phần sụn để truyền bá ghi trên toàn bộ ổ đĩa. Vì vậy, nếu họ thực hiện kiểm tra ghi, bạn chỉ đang ghi chu kỳ ghi thay vì thực sự kiểm tra đĩa.

Kiểm tra đọc không đốt cháy SSD nhưng cũng có thể không thực sự kiểm tra tất cả các lĩnh vực SSD, một lần nữa do phần sụn ẩn bố cục thực.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.