Tỷ lệ thất bại cao của ổ đĩa lớn?


24

Gần đây tôi đã triển khai một máy chủ với các ổ 5x 1TB (tôi sẽ không đề cập đến thương hiệu của họ, nhưng đó là một trong hai máy chủ lớn). Ban đầu tôi đã được cảnh báo về việc sử dụng các ổ đĩa có dung lượng lớn, vì một người bạn đã khuyên tôi rằng họ có chỉ số MTBF rất thấp và tốt hơn là tôi nên sử dụng nhiều hơn, các ổ đĩa có dung lượng nhỏ hơn vì chúng không bị "đẩy đến giới hạn" về mặt công nghệ có thể xử lý.

Kể từ đó, ba trong số năm đĩa đã thất bại. Rất may, tôi đã có thể thay thế và xây dựng lại mảng trước khi đĩa tiếp theo thất bại, nhưng điều đó làm tôi rất lo lắng.

Quan điểm của bạn là gì? Có phải tôi vừa nhận được chúng trong một lô xấu? Hoặc là các đĩa mới hơn / dung lượng cao hơn có nhiều khả năng bị lỗi hơn các đĩa đã thử và đã kiểm tra?


2
Tại sao bạn không đề cập đến thương hiệu? Tôi đoán lô của bạn là 7200.11 cudas được biết là có xu hướng chết sớm.
Dani

Trên thực tế, chúng là các chữ số phương Tây ...
Mark Henderson

Chỉ để ghi lại, tôi đã lấy lại tất cả chúng và nhận tất cả những cái mới, và chúng đã chạy được hai tháng nay mà không có vấn đề gì cả.
Mark Henderson

Tôi đã có một kinh nghiệm tương tự. 16 ổ 1,5TB. Trong 4 tháng đầu, 4 khó khăn thất bại. Trong ba năm tiếp theo, một lần mềm đã thất bại.
David Schwartz

Câu trả lời:


19

Bạn có thể có một lô xấu. Tôi lo lắng về việc triển khai các mảng được xây dựng từ các đĩa từ cùng một lô vì lý do đó - chúng có thể có vòng đời tương tự, điều này khiến việc thay thế có khả năng rất thú vị khi thất bại.

Không thể có một số lỗi thiết kế với các ổ đĩa, điều đó chắc chắn đã xảy ra trước đây; tuy nhiên, thông thường Internet có rất nhiều khiếu nại về ổ đĩa nếu thực sự có vấn đề gì đó, trái ngược với tiếng ồn xung quanh thông thường mà bạn sẽ tìm thấy về bất cứ điều gì.


6
+1 Hãy thử loại bỏ các giao dịch mua của bạn, lấy nguồn từ các thương nhân khác nhau hoặc kết hợp các nhãn hiệu để giảm bớt điều này.
Rob Allen

Hoặc bạn có thể giảm thiểu nó bằng cách "ghi vào" các ổ đĩa có nguồn gốc từ cùng một nơi cùng một lúc. Chạy một chương trình chuyên sâu chống lại họ trong vài giờ / ngày; thời gian loạng choạng để mô phỏng lão hóa khác nhau. Tôi đã tạo ra một chương trình đơn giản có tên DriveTest để ghi dữ liệu ngẫu nhiên psuedo sau đó đọc lại và xác minh để "ghi vào" và làm một bàn kiểm tra đơn giản. Mẹo này không được khuyến nghị cho SSD.
rkagerer

13

Đây là một câu hỏi khó trả lời trừ khi bạn có tài nguyên của một tổ chức lớn. Xem nghiên cứu của Google về các lỗi đĩa cứng .

Khi mua một đĩa đáng kể, tôi sẽ xác định kích thước đĩa thô với chi phí thấp nhất cho mỗi byte, thường là một thế hệ cũ hơn thế hệ mới nhất. Điều này có ý nghĩa rằng họ sẽ cải thiện độ tin cậy của thế hệ đó.


1
1,5 đến 2TB là lợi thế hiện tại, vì vậy 1TB sẽ không đáp ứng tiêu chí của bạn? Chúng khá rẻ.
Đánh dấu tiền chuộc

Điểm rất tốt.
Knox

10

Nhiều platters + nhiều đầu hơn tương đương với cơ hội thất bại cao hơn.

Lấy hai ổ cứng WD phổ biến

640GB = hai đĩa
1TB = ba đĩa

    WD Black 640GB vs 1TB comparison

Drive Ready Time 11 sec  13
R/W Power watts  8.3     8.4
Idle Power watts 7.7     7.8
Standby watts    1       1
Max shock        300g    250g
Performance seek 29      33
Quiet seek       26      29

Đó là đĩa bổ sung = tiếng ồn nhiều hơn, sử dụng nhiều năng lượng hơn, nhiều nhiệt hơn, thời gian sẵn sàng lái xe chậm hơn, dễ bị tổn thương sốc hơn và rung động nhiều hơn.

Nếu họ thực hiện cùng một thiết kế ổ đĩa chỉ với một đĩa thì nó sẽ có thông số kỹ thuật tốt hơn nữa. Trong trường hợp này, đây là các ổ đĩa dành cho người tiêu dùng nhưng chúng là các ổ đĩa dành cho người tiêu dùng cao cấp với bộ nhớ cache gấp đôi và bảo hành 5 năm. Bạn sẽ thấy toán học tương tự nếu bạn kiểm tra chặt chẽ tài liệu về bất kỳ thương hiệu hoặc kiểu ổ cứng truyền thống nào (đĩa quay). Đây hoàn toàn là một vấn đề vật lý mà nhiều đĩa hơn làm cho một ổ đĩa không đáng tin cậy.

Jeff Hengesbach cũng đúng khi nói

Mối quan tâm chính với các ổ đĩa 'lớn' là thời gian xây dựng lại khi xảy ra lỗi. Ổ đĩa càng lớn, thời gian xây dựng lại càng dài, cửa sổ càng lớn cho sự thất bại của ổ đĩa bổ sung và khả năng mất mảng. Với các ổ đĩa "lớn", giá trị doanh nghiệp sẵn có sẽ xác định mức độ rủi ro chấp nhận được (mất mảng), điều này sẽ thúc đẩy lựa chọn cấp độ RAID và số lượng ổ đĩa của bạn (Nhiều ổ đĩa hơn = nhiều khả năng xảy ra lỗi ổ đĩa).

thêm vào một lượng nhỏ Graeme Perrow

Một ổ đĩa có năm mươi triệu lĩnh vực có cơ hội có một khu vực xấu gấp mười lần so với một ổ đĩa có năm triệu lĩnh vực. Tôi giả sử tỷ lệ thất bại giữa các ổ đĩa lớn và ổ đĩa nhỏ là như nhau ở đây, có lẽ không phải là một giả định tốt

Nhiều đĩa hơn = xấu
Nhiều không gian lưu trữ hơn là một túi hỗn hợp. Ưu và nhược điểm đó là rất nhiều.
Nhiều lĩnh vực thực sự là nhiều cơ hội cho lỗi. Không nhất thiết phải tuyến tính trong quy mô nhưng chắc chắn là một yếu tố.

Trừ khi bạn cần không gian nhiều hơn độ tin cậy, tôi sẽ đề nghị gắn vào các ổ đĩa đơn hoặc đĩa kép. Phải mất nhiều nghiên cứu và trong một số trường hợp may mắn biết được bạn sẽ nhận được gì khi đặt mua ổ đĩa vì một số nhà sản xuất không chỉ tránh xuất bản số lượng đĩa mà họ thực sự có thể bán nhiều hơn một ổ dưới cùng một số phần.

Lấy ví dụ WD3200AAKS có một phiên bản đĩa đơn 320 GB và một phiên bản đĩa kép 320 GB (160 GB x 2). Trên hết, có nhiều lab và vỏ ổ đĩa đang được sử dụng để bạn không thể dễ dàng nhìn vào ổ đĩa và biết đĩa nào ở bên trong. Cách duy nhất để biết là tìm kiếm trực tuyến để biết rằng WD3200AAKS-00B3A0 và WD3200AAKS-75VYA0 cho bạn biết đó là đĩa đơn nhưng không nhà bán lẻ nào sẽ cho bạn biết bạn sẽ nhận được gì.


1
Ồ Đó là một số thứ sâu sắc! Cảm ơn! Tôi thậm chí đã không xem xét số lượng các bộ phận chuyển động (platters) trước đây.
Mark Henderson

3

Tôi tin rằng tỷ lệ thất bại cao hơn bình thường là dấu hiệu của bất kỳ công nghệ mới nào. Tôi luôn được dặn là không bao giờ mua năm đầu tiên của một chiếc ô tô, đợi cho đến khi chúng phát hiện ra lỗi. Tôi muốn nói điều tương tự có lẽ đúng với nhiều thứ khác, bao gồm cả ổ cứng.


1
Tôi có thể chứng thực cho sự tương tự toàn bộ xe hơi (tương tự xe hơi không bao giờ đi lạc đường, phải không?). Tôi thừa nhận rằng tôi đã vội vàng và đã không nghiên cứu nó một cách chính xác, và tôi đang trả giá ngay bây giờ!
Mark Henderson

3

Tôi không chắc có công bằng không khi nói các đĩa 'lớn' có chỉ số MTBF cao hơn hay không. Tôi có một hệ thống tên tuổi lớn với một số ổ đĩa 750 GB và trong hơn 2 năm qua không có thất bại nào (750 là "lớn" 2 năm trước). Nhưng tôi cũng biết một hệ thống tên lớn được xây dựng khi 250GB lớn và mảng đó đã giảm một vài lần. Cuộc tranh luận về MTBF là một cái gì đó của một cuộc chiến thần thánh.

Mối quan tâm chính với các ổ đĩa 'lớn' là thời gian xây dựng lại khi xảy ra lỗi. Ổ đĩa càng lớn, thời gian xây dựng lại càng dài, cửa sổ càng lớn cho sự thất bại của ổ đĩa bổ sung và khả năng mất mảng. Với các ổ đĩa "lớn", giá trị doanh nghiệp sẵn có sẽ xác định mức độ rủi ro chấp nhận được (mất mảng), điều này sẽ thúc đẩy lựa chọn cấp độ RAID và số lượng ổ đĩa của bạn (Nhiều ổ đĩa hơn = nhiều khả năng xảy ra lỗi ổ đĩa).

Kinh doanh SATA / RAID đã xuất hiện trong một vài năm qua. Tôi không nghĩ rằng những tên tuổi lớn sẽ cung cấp nó nếu họ biết đó sẽ là một vấn đề hỗ trợ lớn hoặc là một nguồn khiến khách hàng thất vọng. Tôi tò mò muốn biết độ tin cậy của bạn trong tương lai bây giờ rằng bạn đã thay thế một số lô ban đầu.


1

Có phải tất cả chúng trên cùng một máy tính hoặc bộ điều khiển đĩa? Bạn đã nói rằng bạn phải xây dựng lại mảng. Nếu đây là trường hợp, thì có thể một cái gì đó bị lỗi với bộ điều khiển, nguồn điện hoặc bộ nhớ . Nếu không tôi cũng sẽ đoán một loạt các ổ đĩa bị lỗi. Ngoài ra, có thể có vấn đề tương thích với bất kỳ ổ đĩa cụ thể nào bạn đang sử dụng với bộ điều khiển cụ thể đó.

Ngoài ra, tôi tự hỏi khi mọi người nói rằng các đĩa lớn hơn có chỉ số MTBF cao hơn được tính như thế nào. Hãy nói rằng bạn có đĩa 2x250 GB và 1x500 GB. Có lẽ điều này là ngây thơ, nhưng liệu ổ đĩa có chứa nhiều dữ liệu hơn gấp đôi không? Tôi đoán tôi không biết nếu MTBF bao gồm bất kỳ đọc sai hoặc ghi sai, hoặc nếu nó có nghĩa là đĩa bị hỏng cơ học. Có ai biết nếu có một tiêu chuẩn công nghiệp nghiêm ngặt và định nghĩa về MTBF cho đĩa cứng không?


1

Dưới đây là một vài điều tôi sẽ kiểm tra: 1) Các số sê-ri trên các ổ đĩa có gần nhau không? Nếu vậy bạn có thể có một đợt 2 bị lỗi) Môi trường mà máy chủ của bạn sống trong đó như thế nào? Gần đây bạn có vấn đề với phần cứng khác không? 3) Các ổ đĩa có phải là ổ Seagate Barracuda không? Có vấn đề với những ổ đĩa. Xem bài viết thế giới máy tính này trên nó. 4) Những ổ đĩa này là một phần của hệ thống? hoặc bạn đã tự mua chúng? Nếu bạn đã mua các ổ đĩa OEM, không có cách nào để đảm bảo rằng các ổ đĩa được xử lý cẩn thận trước khi bạn mua chúng.

Cá nhân tôi đã có may mắn đáng kinh ngạc với các ổ đĩa cứng. Tôi chỉ có hai ổ đĩa thất bại với tôi. Chỉ một trong những thất bại đó là trên một ổ đĩa tôi đang thực sự sử dụng. Tuy nhiên, xung quanh tôi tôi đã thấy rất nhiều người mất dữ liệu trên ổ cứng.


Hmm, vâng, tất cả họ đều rất thân thiết, nhưng họ là WD, không phải Seagates và vâng, họ là ổ đĩa OEM ... một vài điều tôi đã không cân nhắc trong đó ...
Mark Henderson

1

Tỷ lệ thất bại cao hơn của các ổ đĩa lớn có thể chỉ là một chức năng của kích thước của các ổ đĩa. Một ổ đĩa có năm mươi triệu lĩnh vực có cơ hội có một khu vực xấu gấp mười lần so với một ổ đĩa có năm triệu lĩnh vực. Tôi cho rằng tỷ lệ thất bại giữa các ổ đĩa lớn và ổ đĩa nhỏ là như nhau ở đây, có lẽ không phải là một giả định tốt - như một người khác nói, thực tế là các ổ đĩa terabyte vẫn còn tương đối mới, chúng có thể có tỷ lệ thất bại cao hơn bắt đầu với.

Trong trường hợp của bạn, nó chỉ giống như một loạt các ổ đĩa xấu.


1

Nếu bạn đã mua tất cả các ổ đĩa cùng một lúc từ cùng một nơi thì có thể tất cả chúng đều đến từ một lô iffy duy nhất.

Khi kết hợp một mảng RAID, tôi thường khuyên bạn nên trộn các ổ đĩa một chút, tức là hỗn hợp các nhà sản xuất hoặc ít nhất là các ổ đĩa từ các nhà cung cấp khác nhau (để giảm nguy cơ tất cả các ổ đĩa bị từ một lô xấu).

Một khuyến nghị khác tôi sẽ đưa ra là sử dụng các ổ đĩa nhỏ hơn nếu có thể (nghĩa là bạn có không gian vật lý cho các ổ đĩa và cổng điều khiển để treo chúng), vì vậy thay vì một ổ RAID 1 hoặc hai ổ 1Tb có RAID 10 của bốn đơn vị 500Gb. Theo cách này khi một ổ đĩa bị hỏng, bạn chỉ xây dựng lại một mảng nhỏ hơn là một phần của mảng lớn hơn thay vì xây dựng lại toàn bộ mảng (giảm thời gian mà mảng không hoàn thành) và nó cũng cung cấp thêm một chút dự phòng (trong bốn trong số sáu trong số hai "hai ổ đĩa bị lỗi cùng một lúc", một mảng RAID10 4 ổ đĩa sẽ tồn tại). Bạn cũng có thể làm tương tự với việc kết hợp các mảng R5 nhỏ hơn thành một mảng R50 nếu được bộ điều khiển / phần mềm RAID hỗ trợ.

Có lẽ tôi quá hoang tưởng, nhưng tôi sẽ cảnh giác khi tin tưởng 1Tb dữ liệu vào một ổ đĩa, ngay cả khi ổ đĩa đó là một phần của một mảng dư thừa.

Rõ ràng có những hạn chế về thể chất khi chơi có thể khiến kỹ thuật trở nên không thực tế với bạn, sức mạnh cũng bị hạn chế, vì vậy YMMV. Như một "ví dụ" khi một mảng hoặc mảng không thực tế: Tôi muốn có bốn ổ đĩa là R10 trong một trong các máy chủ của chúng tôi ở đây thay cho các ổ đĩa lớn hơn trong một mảng R1, nhưng thực tế nó không có chỗ , việc mua / xây dựng một mảng bên ngoài đã hết ngân sách và chúng tôi không thể sử dụng không gian trên một mảng hiện có vì dữ liệu phải được tách biệt về mặt vật lý khỏi tất cả các dữ liệu khác do yêu cầu bảo vệ dữ liệu.


1

Ai đó đã làm một nghiên cứu rất chi tiết về vấn đề này của các ổ đĩa lớn hơn. Nó phải làm với tốc độ lỗi bit không đổi mặc dù kích thước ổ đĩa tăng lên, cộng với thời gian dài hơn để xây dựng lại các ổ đĩa lớn hơn. Cả hai kết hợp để đặt một thất bại thứ 2 trong quá trình xây dựng lại rất nhiều vào cõi thực tế. Tôi sẽ đi với 500 gb hoặc ổ đĩa nhỏ hơn trên mảng RAID.


1

Luôn sử dụng ổ cứng dung lượng nhỏ hơn để sử dụng sản xuất. Không bao giờ kiểm tra vật lý đằng sau nó nhưng các đĩa nhỏ hơn thường có xu hướng bị hỏng ít hơn. Đó là những gì mọi người luôn nói với tôi.


0

Bạn đã tạo một mảng với tất cả các đĩa từ cùng một lô và tất cả được vận chuyển từ cùng một nhà cung cấp? Tôi đã nói rằng đó là một điều xấu để làm ...


0

Hãy xem xét RAID-6. Khả năng xảy ra lỗi khó đọc trong quá trình tái cấu trúc RAID-5. Hoặc RAID-Z với ZFS.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.