Thay thế ổ đĩa cứng [đóng]


19

Tôi đã tự hỏi nếu nó là một ý tưởng tốt để thay thế một ổ đĩa cứng trong một máy chủ cơ sở dữ liệu quan trọng (khá) hệ thống sau một số năm sử dụng nhất định, trước khi nó chết.

Chẳng hạn, tôi đã nghĩ đến việc thay thế một ổ cứng sau 3 năm sử dụng. Vì tôi có nhiều ổ cứng trên các máy chủ, tôi có thể thay thế ổ đĩa cứng nào được thay thế.

Đây có phải là một ý tưởng tốt, hay mọi người chỉ chờ đợi thất bại?

Câu trả lời:


33

Google đã thực hiện một nghiên cứu về các ổ đĩa và tìm thấy rất ít mối tương quan giữa tuổi và thất bại của đĩa. Kiểm tra SMART cũng không cho thấy thất bại.

Quan sát cục bộ của tôi (> 500 máy chủ) là tương tự. Tôi có các đĩa mới bị lỗi nhanh chóng trong khi các đĩa cũ vẫn chạy theo.

Nguyên tắc chung của tôi là nếu chúng tôi thấy các sự cố về đĩa (lỗi SMART hoặc hệ thống), chúng tôi sẽ thay thế ngay lập tức. Nếu không, các ổ đĩa sẽ được chuyển ra khi máy chủ thực hiện.

Nghiên cứu của Google http://static.googleusercontent.com/external_content/untrusty_dlcp/research.google.com/en/us/archive/disk_failures.pdf


Đây thường là những gì tôi đã nghĩ, nhưng muốn xem những gì người khác đã làm. Cảm ơn
Garfonzo

2
Tôi đồng tình. Chúng tôi đang thấy tỷ lệ thất bại cao hơn nhiều với các ổ đĩa 2,5 "SAS mới hơn so với các máy chủ 10 năm tuổi chạy các ổ đĩa SCSI 3,5" 9 GB!
James O'Gorman

@ JamesO'Gorman Quá trình sản xuất thay đổi ... khiến tôi tự hỏi những gì đã được thực hiện cho các ổ đĩa mới như là một phần của một số "sự đánh đổi" kỹ thuật.
Avery Payne

1
Microsoft Technet cũng có một bài viết về Fault Tolerance chạm nhanh vào lỗi ổ cứng / thành phần cơ học ( technet.microsoft.com/en-us/l Library / bb742464.aspx ) - Họ nói một chút về "đường cong bồn tắm" mà cơ khí thất bại thành phần có xu hướng theo sau.
voretaq7

@AveryPayne Re các ổ đĩa mới, lưu ý rằng các ổ đĩa 2,5 "có dung sai chặt chẽ hơn RẤT NHIỀU - Kết quả là việc trượt cơ học" chấp nhận được "trên ổ đĩa 3,5" có thể dẫn đến một sự cố thảm khốc trên ổ đĩa 2,5 ". Tôi đã liên kết về đường cong bồn tắm - Các thành phần cơ học nói chung có tỷ lệ tử vong ở trẻ sơ sinh cao, và sau đó tương đối ổn định cho đến khi cuối cùng chúng chết vì "tuổi già". Các ổ đĩa 2,5 "vẫn nằm trong lãnh thổ" tử vong trẻ sơ sinh "- theo kinh nghiệm của tôi cho ít nhất 1 năm hoạt động.
voretaq7

13

Không.

Một trong những vấn đề lớn nhất khi thay thế ổ cứng trên máy chủ sản xuất đang hoạt động là làm như vậy sẽ kích hoạt việc xây dựng lại. Đặc biệt nếu bạn đang sử dụng RAID5 và đặc biệt nếu bạn đang sử dụng các ổ đĩa lớn, việc buộc phải xây dựng lại sẽ tạo ra một rủi ro rất đáng kể về một lỗi không thể phục hồi. Nguy cơ mất mảng trong quá trình xây dựng lại lớn hơn nhiều so với rủi ro liên quan đến việc để lại một ổ đĩa 3 tuổi.

Lấy một ví dụ cực đoan, nếu bạn thay thế liên tiếp mọi đĩa trong mảng RAID5 6 đĩa bao gồm các đĩa 2TB, thì nguy cơ về mặt lý thuyết của bạn về lỗi đọc không thể phục hồi trong một trong những lần xây dựng lại nằm trong khoảng 58% (theo toán học khăn ăn của tôi; xin vui lòng làm của riêng bạn và so sánh ghi chú). Nói cách khác: trên thực tế, việc thay thế đĩa "phòng ngừa" của bạn không có gì khác hơn là một hành động phá hoại.

Lần duy nhất khi tôi xem xét việc làm mới các ổ đĩa trong một máy chủ cũ là trong quá trình "tân trang" nó, ví dụ như sau khi ngừng hoạt động từ một nhiệm vụ và trước khi đưa nó trở lại hoạt động với vai trò mới. Ngay cả tại thời điểm đó, yêu cầu về dung lượng và hiệu suất sẽ quan trọng hơn nhiều so với tuổi của các ổ đĩa.


1
+1 để kích hoạt xây dựng lại
gregmac

Bạn có thể vui lòng giải thích tại sao rủi ro là 58%? Nếu đĩa được tuần tra thường xuyên tại sao nó sẽ nhấn mạnh sự phục hồi hơn?
Mircea Vutcovici

@MirceaVutcovici vì trong sự sắp xếp RAID-5, tất cả các ổ đĩa sẽ liên tục hoạt động trong quá trình xây dựng lại so với tìm kiếm ngẫu nhiên thường xuyên ở đây hoặc ở đó. Nói cách khác, "tải" trên tất cả các ổ đĩa tăng lên và khi làm như vậy, nguy cơ kích hoạt ổ đĩa thứ 2 không thành công cũng tăng theo.
Avery Payne

@Avery Payne Tôi biết rằng bạn nhấn mạnh các đĩa nhiều hơn trong quá trình xây dựng lại. Tôi đang cố gắng để hiểu tại sao việc xây dựng lại sẽ nhấn mạnh các đĩa hơn là kiểm tra tính nhất quán.
Mircea Vutcovici

@MirceaVutcovici Con số chính xác (và cách làm toán) gây tranh cãi, nhưng điểm mấu chốt là bạn phải đọc 10 terabyte dữ liệu sáu lần , mà không có lợi ích của một đĩa chẵn lẻ để sửa bất kỳ lỗi đọc nào, để thực hiện sáu lần xây dựng lại. Xác suất đọc 60 terabyte dữ liệu, hoàn toàn không có lỗi, không có lợi cho bạn.
Skyhawk

3

Tôi đã không nhìn thấy nó. Chúng tôi giữ máy chủ được bảo hành cho đến khi chúng được đưa ra khỏi sản xuất - 5 năm. RAID 5 tiêu chuẩn cho phép bạn sống sót khi bị hỏng đĩa, vì vậy chúng tôi chỉ cần giữ một vài ổ đĩa để chúng tôi có thể bắt đầu xây dựng lại ngay lập tức và trên các máy chủ quan trọng, chúng tôi bao gồm một hotspare hoặc đi RAID 10.

Nếu bạn nhận thấy một số ổ đĩa bị lỗi Gần đây trong một máy chủ bạn có thể có một vấn đề bảng nối đa năng. Có thể là rung động mới hoặc bụi quá từ xây dựng gần đó.


Điều này không hoàn toàn đúng. nếu một số lượng lớn các đĩa của bạn là từ cùng một lô, bạn sẽ có nguy cơ thất bại đồng thời cao hơn nhiều khi bạn thêm căng thẳng khi xây dựng lại. Như đã lưu ý trong một câu trả lời khác, việc tăng kích thước củaRAID5 sẽ tăng xác suất của URE trong quá trình xây dựng lại, đưa mảng của bạn xuống dưới ngưỡng hợp lệ raid5.
Magellan
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.