Có lý do để thay đổi ổ cứng của máy chủ trước khi nó bị lỗi không?


11

Chỉ cần một câu hỏi nhanh: có lý do để thay đổi ổ cứng của máy chủ sau x năm trước khi nó bị lỗi (cuối cùng sẽ đến một lúc nào đó) hay tôi chỉ nên để nó cho đến khi nó bị lỗi? Tôi có ít kinh nghiệm về quản trị máy chủ thực tế nên tôi tự hỏi ...


Tôi không mong đợi nhận được nhiều câu trả lời như vậy, wow :) Sau khi xem xét tất cả chúng và xem xét rằng a) Ổ cứng của máy chủ phù hợp với mục đích của nó b) Sao lưu được đảm bảo tuyệt đối (Sử dụng RAID + Sao lưu Slave + sao lưu hàng ngày để một nguồn bên ngoài) Tôi thấy không có lý do gì để đề nghị thay đổi ổ đĩa. Cảm ơn tất cả!
Spiros

Câu trả lời:


8

Một lý do tuyệt vời để thay đổi nó là nếu bạn muốn thêm một nhiệm vụ khác vào danh sách những việc cần làm trong khi tăng khả năng xảy ra sự cố.

Nói đùa, thực sự không có lý do gì tôi đã nghe nói để thay đổi ổ đĩa trước thời hạn. Nếu bạn có RAID sẵn sàng, bạn đã có sẵn bảo vệ (giả sử bạn có bản sao lưu hợp lý) và bạn không tạo ra chất thải dưới dạng ổ đĩa chết để xử lý và bạn không cần phải loại bỏ một cách không cần thiết dữ liệu nhạy cảm từ ổ đĩa. Bạn sẽ không chi thêm tiền cho các ổ đĩa mới và bạn vẫn sẽ không chủ động bảo vệ chống lại những thứ vẫn có thể bị lỗi, như bộ điều khiển ổ đĩa bị lỗi, không phổ biến như nguồn lỗi ổ đĩa nhưng có thể xảy ra.

Mặt khác, điều này có thể giúp bạn phát hiện ra các lỗi ổ đĩa không thể khắc phục được mà không kích hoạt báo động trên thiết bị RAID, như chúng ta đã xảy ra với RAID 5. Chúng ta đã bị cắn bởi điều này và cuối cùng cần phải xây dựng lại từ kim loại trần từ bản sao lưu (thậm chí trong trường hợp đó, một bản sao lưu thích hợp sẽ giúp bạn phục hồi.) Một cấp độ RAID có tính đến dung lượng ổ đĩa lớn hơn hiện nay và dung sai lỗi không thể phục hồi sẽ giúp chúng tôi, nếu không, sao lưu sẽ tiết kiệm trong ngày.

Hầu hết các quản trị viên đều có một kế hoạch sao lưu và RAID tốt, do đó không cần thực sự tạo thêm chất thải bằng cách thay thế các ổ đĩa một cách không cần thiết.


6

Lần duy nhất tôi có thể xem xét điều này là nếu tôi có một loạt các đĩa từ cùng một đợt và các ổ khác trong lô đã bắt đầu không thành công, thì tôi có thể xem xét nó.

Nếu tôi chật hẹp về không gian, thì chắc chắn, tôi sẽ làm điều đó - nhưng không vì lý do nào khác ngoài việc nó đã già đi? Không, bởi vì trung bình tỷ lệ thất bại trong năm đầu tiên tương tự như tỷ lệ thất bại bất kỳ năm nào khác . (lưu ý rằng biểu đồ chia ra năm đầu tiên sau 3 tháng, 6 tháng, 1 năm, nhưng bạn phải cộng tất cả chúng lại với nhau để có cơ hội thất bại sau 1 năm). Và khi nhìn vào mức độ sử dụng đĩa cao, nhiều khả năng sẽ thất bại trong năm đầu tiên so với ba năm tiếp theo cộng lại.

Mối tương quan duy nhất với lỗi lái xe muộn là trong các phòng nóng hơn và chúng tôi giữ cho phòng máy chủ của chúng tôi mát mẻ.


5

Tôi là tất cả vì đã chủ động, nhưng tôi chưa bao giờ làm điều đó và chưa bao giờ nghe nói về bất cứ ai làm điều đó. Có lẽ bạn có một số loại thiết lập RAID và thường xuyên xảy ra, sao lưu hợp lệ cho (các) hệ thống được đề cập.


5
+1, Không bao giờ xem xét nó. Thay thế một đĩa, chỉ trong trường hợp và cố ý kích hoạt xây dựng lại mảng dường như không phải là cách tốt nhất để "thực hiện" các đĩa sản xuất còn lại. Khó khăn hơn để giải thích với ông chủ tại sao hệ thống ngừng hoạt động nếu việc xây dựng lại thất bại.
jscott

3
Tôi thay thế các đĩa có lỗi SMART, nhưng tôi sẽ xem xét chúng không thành công, ngay cả khi chúng vẫn hoạt động về mặt kỹ thuật.
Chris S

4

Có, hiệu suất và năng lực. Nếu ổ cứng cũ có tốc độ đọc 70 MB / giây và 100 IOPS và khả năng thay thế có thể đọc 200 MB / giây và 175 IOPS và cũng có khả năng gấp 3 lần bạn có thể mua ổ đĩa mới và đổi chỗ cũ thành mới lý do hiệu suất / năng lực. (và những con số đó hoàn toàn được tạo thành, điểm mới hơn có thể nhanh hơn đáng kể).

Bây giờ bạn làm gì với các ổ đĩa cũ. Bạn có thể sử dụng chúng trong một máy chủ thử nghiệm hoặc thêm chúng vào bản sao lưu vào mảng đĩa hoặc giữ chúng dưới dạng các phụ tùng khẩn cấp. Hoặc bạn có thể chỉ cần lau chúng và gửi chúng đi để xử lý.

Máy chủ trung bình của bạn ngày nay bị ràng buộc IO nhiều hơn giới hạn bộ xử lý (hoặc ít nhất là tất cả của tôi). Vì vậy, nếu bạn có một máy chủ thực sự cũ không có vấn đề về thời gian CPU hoặc Thiếu bộ nhớ, bạn có thể có khả năng cải thiện đáng kể hiệu năng bằng cách thay thế các ổ đĩa cứng có vài thế hệ sau những gì bạn có thể dễ dàng mua để thay thế chúng.


3

Nó phụ thuộc vào tác động nếu lỗi ổ cứng.

Nếu bạn không có RAID
Nếu bạn không quan tâm đến tính khả dụng của máy chủ vì dịch vụ có thể bị dừng hoặc do tính sẵn sàng cao và nếu bạn có bản sao lưu dữ liệu đang hoạt động. Tôi sẽ nói Ok, hãy để ổ đĩa chết và thay đổi nó và khôi phục dữ liệu khi nó bị lỗi.
Nếu bạn quan tâm đến tính khả dụng, tôi sẽ nói sử dụng RAID;)

Nếu bạn có RAID (1, 5, 6, ...)
tôi sẽ nói, tại sao thay đổi ổ cứng trước lỗi? RAID (và sao lưu) là ở đây cho điều đó. Thay đổi một ổ đĩa cứng chỉ trong trường hợp nó có thể bị hỏng là một rủi ro để phá vỡ một cái gì đó (tái thiết đột kích luôn có rủi ro)

Nhưng đó chỉ là quan điểm của tôi! Nếu bạn nghĩ rằng ổ đĩa của bạn có thể quá cũ, bạn cũng có thể muốn thay đổi máy chủ của mình.


2

Một số đĩa chết trong 1 giờ, số khác kéo dài 2 thập kỷ.

Nếu nó không thất bại hoặc thất bại (điều mà bạn thường có thể thiết lập thông qua giám sát SMART hoặc các vấn đề về hiệu suất) thì lý do duy nhất khác để loại bỏ nó là nếu nó không đủ lớn hoặc đủ nhanh cho mục đích của bạn.


1
Chỉ cần giám sát ổ đĩa bằng SMART và nó thường sẽ hiển thị các dấu hiệu lỗi trước khi quá muộn.
Giáo sư Moriarty

Nghiên cứu đĩa lớn của @Prof cho thấy SMART "thường" đáng tin cậy 44% -72% thời gian. static.googleusercontent.com/external_content/untrusty_dlcp/ trên
jscott

2

Với đĩa, câu hỏi không phải là nếu họ sẽ thất bại, nhưng khi . Chúng là các thiết bị cơ học (trừ khi sử dụng SSD, nhưng chúng có những cảnh báo riêng), vì vậy chúng sẽ thất bại, sớm hay muộn.

Các nhà cung cấp đĩa có xu hướng điều chỉnh các quy trình sản xuất của họ càng rẻ càng tốt, bởi vì ngay cả một xu được lưu trên mỗi đĩa cũng có thể khá quan trọng khi bạn sản xuất và bán hàng ngàn trong số đó; nhưng tất nhiên họ không muốn đĩa của mình bị hỏng trước khi thời hạn bảo hành kết thúc hoặc họ sẽ thay thế chúng miễn phí mọi lúc; vì vậy, họ sẽ vui vẻ chi tiêu hết mức cần thiết để có được chúng miễn là bảo hành bảo hành cho họ ... nhưng không phải là một xu nữa.

Kết quả cuối cùng là: hầu hết các đĩa có xu hướng bị hỏng ngay sau khi thời gian bảo hành kết thúc. Tất nhiên đây không phải là một quy tắc chung, nó chỉ là số liệu thống kê và đĩa của bạn có thể thất bại ngay bây giờ hoặc kéo dài cho đến khi bạn không cần nó nữa ... nhưng, theo thống kê, có rất nhiều đĩa bị lỗi vài ngày hoặc vài tháng sau hết hạn bảo hiểm.

Tất nhiên, việc mua những cái mới khi bạn vẫn không cần chúng có thể rất tốn kém ... nhưng thay thế chúng sau khi hết hạn bảo hành và chúng sẽ thất bại dù sao cũng sẽ tốn kém.

Bây giờ, nếu bạn có thể tìm cách khiến chúng thất bại trong khi vẫn được bảo đảm (và không mất dữ liệu trong quy trình, tức là có bản sao lưu RAID tốt ), thì điều đó sẽ tối ưu ;-)


2

Tôi sẽ không thay thế một ổ đĩa làm việc nhiều hơn tôi sẽ thay thế một nguồn cung cấp năng lượng làm việc. Cả hai cuối cùng sẽ thất bại nhưng không có ý nghĩa gì, về mặt kỹ thuật hoặc tài chính, để thay thế chúng mà không có lý do chính đáng. Thay thế chúng khi chúng bắt đầu có dấu hiệu rắc rối.

Trong trường hợp ổ đĩa cứng, xu hướng là nếu một ổ đĩa bị hỏng sớm, nhiều khả năng nó sẽ xảy ra trong năm đầu tiên. Ổ đĩa đã chạy sự cố miễn phí trong 6 năm thường có thể được dựa vào để tiếp tục làm việc trong ít nhất một vài năm nữa. Rõ ràng có rất nhiều trường hợp ngoại lệ cho điều đó nhưng đó là xu hướng chung.


1
Bạn (thường) không bị mất dữ liệu khi nguồn điện bị hỏng ...
Massimo

1
@Massimo - Đúng, nhưng trên máy chủ, bạn cũng thường không mất dữ liệu khi một ổ đĩa bị lỗi. Theo tôi, nếu không có sự dư thừa thì đó chỉ là một máy trạm được tôn vinh, không phải là một máy chủ thực sự.
John Gardeniers

1

Ngoài ra, hãy nhớ rằng hầu hết các ổ đĩa máy chủ có các yêu cầu sản xuất nghiêm ngặt hơn và thường đáng tin cậy hơn so với các ổ đĩa máy tính để bàn chi phí / ngân sách thấp. Vì vậy, ngoài những nguy hiểm của việc thay thế ổ đĩa 'tốt' trong trường hợp có thể không thành công, việc thực hiện điều này cho một mảng lớn có thể tăng thêm một khoản tiền lớn.

Ngoài ra, khi sử dụng RAID, đó là lý do tại sao nên có ít nhất một phụ tùng nóng trong máy chủ, vì vậy nó có thể nhanh chóng bắt đầu xây dựng lại và vẫn khỏe mạnh cho đến khi bạn mua thay thế trên cơ sở cần thiết.


1

Tôi đã thực hiện nó trên các hệ thống "không thời gian chết". Thực sự, bạn có khả năng bị mất một ổ đĩa khác khi RAID xây dựng lại ... Tôi đã tráo đổi một lần, rồi cuối cùng lại đổi nó khi một ổ đĩa khác bắt đầu ném lỗi trong quá trình xây dựng lại.

Đó thực sự là một câu hỏi triết lý: nếu bạn tin vào thử nghiệm căng thẳng chủ động (cả mảng và hệ thống tim mạch của bạn) thì bạn nên trao đổi ổ đĩa của mình. Nhưng thực sự, bạn sẽ không bao giờ biết ổ đĩa nào sẽ bị hỏng tiếp theo. Hoàn toàn không có khả năng là bạn có thể mất ổ đĩa mới được thay thế trước khi bạn mất bất kỳ ổ đĩa cũ, đã được chứng minh nào.

Điều đó đã được nói, tôi sẽ lãng phí thời gian của mình để kiểm tra căng thẳng giải pháp sao lưu của mình và để các ổ đĩa được yên ổn cho đến khi chúng thực sự bắt đầu ném lỗi.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.