Cách tốt nhất để kiểm tra ổ cứng mới cho máy chủ lưu trữ giá rẻ


31

Tôi muốn xây dựng một máy chủ lưu trữ và mua 10 x 2TB WD RED's. Mới HDD'sđến.

Có công cụ nào mà các bạn sử dụng để kiểm tra các ổ đĩa xấu hoặc để bảo vệ tốt nhất chống lại tử vong trẻ sơ sinh trước khi sao chép dữ liệu thực vào đĩa của bạn không?

Là tốt hơn để kiểm tra từng đơn HDDhoặc để kiểm tra mảng ( ZFS raid-z2) thông qua sao chép nhiều dữ liệu trên đó?


1
Tôi biết có một số công cụ cụ thể của nhà cung cấp như "WD Data LifeGuard Chẩn đoán". Nhưng tôi tự hỏi những gì các chàng trai làm, mà mua rất nhiều đĩa cứng. Tôi nghi ngờ họ kiểm tra từng ổ cứng (mất rất nhiều thời gian ..) vì vậy tôi tự hỏi liệu có một công cụ nào có thể thực hiện kiểm tra SMART đầy đủ trên tất cả các ổ cứng không?
s1lv3r

3
Bất cứ thứ gì ghi vào ổ đĩa đều có thể được sử dụng như một bài kiểm tra; một cú vuốt đầy đủ hoặc hai trong số các mảng phải đủ để bắt được tỷ lệ tử vong ở trẻ sơ sinh. Bạn nên mua ổ đĩa từ các nhà cung cấp / lô khác nhau khi bạn nhận được nhiều hơn một cặp - giảm đáng kể khả năng một số ổ bị hỏng cùng một lúc (do lỗi sản xuất tương tự).
Chris S

Câu trả lời:


14

Tôi đã có cùng một câu hỏi 2 tháng trước. Sau khi gửi trong một đĩa không thành công, đĩa thay thế đã thất bại trong NAS của tôi sau 3 ngày. Vì vậy, tôi quyết định bây giờ tôi sẽ thử nghiệm sự thay thế mới trước khi đưa nó vào sản xuất. Tôi không kiểm tra mọi đĩa mới tôi mua, chỉ trên các đĩa 'tân trang' mà tôi không hoàn toàn tin tưởng.

Nếu bạn quyết định muốn kiểm tra các đĩa này, tôi khuyên bạn nên chạy quét badblocks và kiểm tra SMART mở rộng trên đĩa cứng hoàn toàn mới.

Trên đĩa 2TB, việc này mất tới 48 giờ, Lệnh badblock ghi đĩa đầy đủ với một mẫu, sau đó đọc lại các khối để xem mẫu đó có thực sự ở đó không, và sẽ lặp lại điều này với 4 mẫu khác nhau.

Lệnh này có thể sẽ không thực sự hiển thị bất kỳ khối xấu nào trên một đĩa mới, vì các đĩa sẽ phân bổ lại các khối xấu trong những ngày này.

Vì vậy, trước và sau này, tôi đã chạy thử nghiệm thông minh và kiểm tra số lượng khu vực đang chờ phân bổ lại và hiện đang chờ xử lý. Nếu bất kỳ thứ nào trong số này tăng lên, đĩa của bạn đã có một số khối xấu và do đó có thể không đáng tin.

Sau này, tôi chạy thử nghiệm SMART mở rộng một lần nữa.

Bạn có thể muốn cài đặt smartctl hoặc smartmontools trước.

Cảnh báo , cờ badblocks -w sẽ ghi đè tất cả dữ liệu trên đĩa của bạn, nếu bạn chỉ muốn thực hiện kiểm tra đọc, mà không ghi đè lên đĩa, hãy sử dụngbadblocks -vs /dev/sdX

sudo smartctl -a /dev/sdX
# record these numbers
sudo badblocks -wvs /dev/sdX
# let it run for 48 hours
sudo smartctl -a /dev/sdX
# compare numbers
sudo smartctl -t long /dev/sdX
# this might take another hour or 2, check results periodically with
sudo smartctl -a /dev/sdX

Nếu sau này giá trị thông minh của bạn có vẻ ổn, tôi sẽ tin tưởng vào đĩa.

Để biết ý nghĩa của từng giá trị thông minh, bạn có thể bắt đầu tìm kiếm tại đây

http://en.wikipedia.org/wiki/Self-Monitoring,_Analysis,_and_Reporting_T Technology


Như những người khác cho rằng điều này có thể làm được rất nhiều, nhưng vì tôi chỉ có 10 đĩa và nó chắc chắn không thể làm gì xấu, tôi chỉ kiểm tra tất cả các đĩa theo cách bạn đề xuất bây giờ. Cảm ơn bạn đã trả lời toàn diện của bạn.
s1lv3r

23

Đây là những đĩa mới. Hoặc là họ sẽ thất bại hoặc họ sẽ không. Bạn đã đi trước một bước lớn bằng cách sử dụng hệ thống tệp ZFS, điều này sẽ cung cấp cho bạn cái nhìn sâu sắc về sức khỏe đột kích và hệ thống tệp của bạn ...

Tôi sẽ không làm bất cứ điều gì ngoài việc xây dựng các mảng. Đó là điểm dư thừa. Bạn sẽ không thể gây ra lỗi ổ đĩa với các phương pháp được liệt kê khác.


1
Đồng ý với điều này - bạn đang xây dựng một mảng. Nếu một ổ đĩa bị lỗi khi bạn bắt đầu đưa dữ liệu vào, thì nó không thành vấn đề, bạn thay thế nó và mảng tự phục hồi. Kiểm tra các ổ đĩa cho các vấn đề trước khi sử dụng chúng sẽ không cung cấp cho bạn một ý tưởng đúng đắn về việc chúng sẽ thất bại trong cuộc sống thực - cuộc sống thực không giống như các bài kiểm tra!
Ashley

1
Tôi đồng ý "cuộc sống thực không giống như các bài kiểm tra" nhưng tôi cũng đã tìm thấy hai lỗi ổ đĩa thông qua các lỗi xấu. Nếu tôi đặt cả hai thứ đó vào cùng một phần của RAID 1, 5 hoặc 10, tôi sẽ mất toàn bộ RAID.
rjt

1
@rjt có lẽ là không. Các thành phần xấu sẽ được phân bổ lại và các ổ đĩa có thể không bị lỗi cùng một lúc. Thêm vào đó, không phải tất cả các lỗi ổ đĩa là phương tiện truyền thông hoặc kết quả của các khối xấu. Điều gì nếu ổ trục bị mòn hoặc trục trặc?
ewwhite

tôi không đưa ra quyết định về dữ liệu quan trọng sứ mệnh trên lẽ . Nghiên cứu về Ổ cứng của Google cho biết các ổ đĩa bị hao mòn trong 90 ngày đầu hoặc sau 3 năm. badblocks giúp loại bỏ các quả treo thấp.
rjt

1
@rjt Tất nhiên bạn đưa ra quyết định về dữ liệu quan trọng về nhiệm vụ trên "có thể" - Nếu không, bạn sẽ không thể lưu trữ dữ liệu trên bất kỳ ổ đĩa nào, bất kể bạn có kiểm tra bao nhiêu.
voretaq7

10

Bạn có thể sử dụng Bonnie ++ để thử nghiệm. Nó hoàn toàn có thể mô phỏng mô hình hành vi máy chủ tập tin.

Ví dụ:

# bonnie++ -u nobody -d /home/tmp -n 100:150000:200:100 -x 300

Kiểm tra sẽ chạy dưới dạng người dùng 'không ai' và sẽ tạo / ghi lại / xóa 100 * 1024 tệp, từ 200 đến 150000 byte mỗi tệp, trong 100 thư mục được xử lý tự động bên dưới / home / tmp. Và số lượng bài kiểm tra = 300. Bạn có thể chơi xung quanh số tập tin / kích thước và số lần lặp lại bài kiểm tra.


9

Tôi thường chỉ thực hiện một khởi tạo RAID đầy đủ và khi có thể, bắt đầu đưa vào hệ thống tệp trong thời gian này, mọi lúc biết rằng có thể có vấn đề do ổ đĩa chết. Bằng cách này, tôi không lãng phí bất kỳ thời gian nào cho một số loại thử nghiệm khá không đáng tin cậy và tôi sẽ bắt được các ổ đĩa yếu thực sự ngay lập tức. Sau đó, vẫn có thể có một số cơ hội cao cho các lỗi lái xe do "tử vong trẻ sơ sinh", nhưng không có cách nào thực tế để loại bỏ điều này.

Trong thực tế, không ai trong số vài trăm đĩa tôi sử dụng trong RAID có bất kỳ vấn đề nào trong năm đầu tiên hoạt động.


8

Tôi làm việc cho một công ty thực hiện loại thử nghiệm này ngày này qua ngày khác. Và có, chúng tôi kiểm tra từng ổ cứng chúng tôi mua. Quá trình của chúng tôi bắt đầu bằng việc chạy các ổ đĩa thông qua một chương trình dựa trên DOS miễn phí có tên HDAT2. Nó miễn phí để tải về. Nó có thể truy cập SMART và một số tính năng khác của ổ đĩa không thể truy cập từ môi trường Windows. Tùy thuộc vào kết quả, chúng tôi sẽ chạy chúng thông qua một trong nhiều dòng phần cứng chuyên dụng khác nhau, nhưng cốt lõi là chúng chỉ chạy thử nghiệm ngắn SMART, Thử nghiệm dài, xóa an toàn và All Read để xác minh các lĩnh vực. Đề nghị của tôi là chạy một bản xóa an toàn trên toàn bộ đĩa, sau đó chạy tất cả đọc, sau đó tự kiểm tra ngắn SMART. Thứ tự này rất quan trọng vì việc tự kiểm tra ngắn có thể không tìm thấy gì nếu chạy vào lúc bắt đầu kiểm tra nhưng sau khi ghi và đọc toàn bộ đĩa, nó có thể nhận được một cái gì đó. Hi vọng điêu nay co ich.


1
serverfault.com/a/501870/117546 có ý nghĩa nhất đối với tôi, nhưng tôi không phải là một chuyên gia. Tại sao công ty của bạn kiểm tra các ổ đĩa cứng. Tôi nghĩ rằng thử nghiệm hiệu quả nhất sẽ thực sự sử dụng ổ đĩa.
emory

4

Bạn có thể sử dụng bộ kiểm tra của nhà sản xuất hoặc một cái gì đó như SpinRite để quét toàn bộ đĩa. Nó cũng sẽ là một ý tưởng tốt để xem xét các giá trị SMART , tìm kiếm các thành phần xấu và các dấu hiệu tuổi già / thất bại khác.


3

Nếu bạn thực sự muốn kiểm tra, sau đó sử dụng badblockskiểm tra viết. Nó sẽ ghi các mẫu dữ liệu vào đĩa sau đó đọc chúng để kiểm tra. Trong thời gian này, nó sẽ làm căng đĩa của bạn một chút. Theo tôi, nếu nó chạy thành công, bạn có thể tin tưởng vào đĩa.

Nhưng tôi nghĩ ZFS và sao lưu tốt là đủ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.