Có bao nhiêu phân bổ khu vực SMART chỉ ra vấn đề?


17

Tôi có một thiết bị NAS chỉ mới hơn một tháng. Nó được cấu hình để gửi email cho tôi các cảnh báo được tạo từ dữ liệu SMART của ổ cứng. Sau một ngày, một trong những ổ đĩa cứng báo cáo rằng một khu vực đã bị hỏng và được phân bổ lại. Trong tuần đầu tiên, con số đó đã tăng lên sáu tổng số cho ổ cứng được đề cập. Sau một tháng, con số đứng ở chín lĩnh vực được phân bổ lại. Tốc độ chắc chắn dường như đang giảm tốc.

NAS được cấu hình với sáu ổ 1,5 TB trong cấu hình RAID-5. Với các ổ đĩa có dung lượng cao như vậy, tôi sẽ mong đợi một khu vực thỉnh thoảng bị lỗi, vì vậy tôi không quan tâm khi một số lĩnh vực đầu tiên được di dời. Nó làm phiền tôi mặc dù không có đĩa nào khác báo cáo bất kỳ vấn đề nào.

Ở tốc độ di dời, hoặc tổng số lần tái định cư, tôi có nên bắt đầu lo lắng cho sức khỏe của ổ đĩa không? Điều này có thể thay đổi dựa trên dung lượng của ổ đĩa?


tốt đẹp, jeremy. một trong những điều tốt nhất trên serverfault vì nhiều người khác ở đây sẽ thấy nó hữu ích và không dễ để tìm câu trả lời. chắc chắn xứng đáng hơn +2. bạn có thể muốn viết lại câu hỏi sao cho nó không dành riêng cho NetGear, nhưng nói chung là lưu trữ
tên người dùng

Cảm ơn phản hồi, tôi đã thực hiện các thay đổi bạn đề xuất và cập nhật tình hình.
Jeremy

1
Tôi thay thế ổ đĩa tại một khu vực phân bổ lại. Bạn nên mong đợi số 0 trong khoảng thời gian bảo hành của ổ đĩa. Các nhà sản xuất luôn tôn vinh bảo hành trên các ổ đĩa này.
Michael Hampton

Câu trả lời:


13

Ổ đĩa, giống như hầu hết các thành phần, có tỷ lệ thất bại đường cong bồn tắm. Họ thất bại rất nhiều vào lúc đầu, có tỷ lệ thất bại tương đối thấp ở giữa, và sau đó thất bại rất nhiều khi họ đi đến cuối cuộc đời.

Giống như toàn bộ ổ đĩa đi theo đường cong này, các khu vực cụ thể của đĩa cũng sẽ đi theo đường cong này. Bạn sẽ thấy rất nhiều phân bổ lại khu vực khi bắt đầu sử dụng ổ đĩa, nhưng điều này sẽ giảm dần. Khi ổ đĩa bắt đầu thất bại vào cuối cuộc đời, nó sẽ bắt đầu mất ngày càng nhiều lĩnh vực.

Bạn không cần phải lo lắng về 6 (tùy thuộc vào ổ đĩa - tham khảo ý kiến ​​nhà sản xuất), nhưng bạn cần xem và xem tần suất của mỗi lần tái phân bổ mới. Nếu sự xuống cấp tăng tốc hoặc giữ nguyên, lo lắng. Mặt khác, nó sẽ ổn sau thời gian nghỉ ban đầu.

-Adam


Một điểm nhỏ: Ổ đĩa sẽ thất bại DÀI trước MTBF của họ. Tôi nghĩ bạn có nghĩa là họ thất bại rất nhiều khi họ tiếp cận cuộc sống mong đợi của họ.
Eddie

5
Không phải Google đã hoàn toàn gỡ rối lý thuyết "đường cong bồn tắm" sao?
Insyte

20

Đọc lại bài viết của Google về chủ đề " Xu hướng thất bại trong dân số ổ đĩa lớn ", tôi nghĩ rằng tôi có thể nói rằng câu trả lời của Adam là không chính xác. Trong phân tích của họ về một số lượng lớn các ổ đĩa, khoảng 9% có số lượng tái phân bổ khác không. Câu nói này là:

Sau lần tái phân bổ đầu tiên, các ổ đĩa có khả năng thất bại cao hơn 14 lần trong vòng 60 ngày so với các ổ đĩa không có số lần tái phân bổ, khiến ngưỡng quan trọng cho tham số này cũng là một.

Thậm chí còn thú vị hơn khi xử lý "phân bổ ngoại tuyến", đó là các phân bổ được phát hiện trong quá trình quét nền của ổ đĩa, chứ không phải trong các op IO được yêu cầu thực tế. Kết luận của họ:

Sau lần tái phân bổ ngoại tuyến đầu tiên, các ổ đĩa có khả năng thất bại cao hơn 21 lần trong vòng 60 ngày so với các ổ đĩa không có phân bổ ngoại tuyến; một hiệu ứng một lần nữa quyết liệt hơn so với tổng phân bổ.

Chính sách của tôi kể từ bây giờ sẽ là các ổ đĩa có số lượng phân bổ lại bằng không sẽ được lên lịch để thay thế.


Điều đó thật thú vị, tôi đã nghe về bài báo đó nhưng tôi có thể cần phải đọc lại nó. FWIW, 4 trong số 6 ổ đĩa trong NAS của tôi có các khu vực được phân bổ lại. Cảm ơn câu trả lời.
Jeremy

3

Các ổ đĩa khác nhau có thể có các thông số khác nhau. Trên một ổ đĩa mà tôi đã kiểm tra lần cuối đó là đĩa sê-ri doanh nghiệp 1TB từ một nhà cung cấp, có 2048 khu vực dành riêng để phân bổ lại.

Bạn có thể ước tính số lượng các khu vực dành riêng đang tìm kiếm trong báo cáo SMART trên một ổ đĩa có số lượng các khu vực được phân bổ lại khác nhau. Hãy xem xét một báo cáo về một ổ đĩa thất bại dưới đây.

...
ID# ATTRIBUTE_NAME          VALUE WORST THRESH TYPE      WHEN_FAILED  RAW
...          
  5 Reallocated_Sector_Ct   005   005   036    Pre-fail  FAILING_NOW  1955

Ở đây 95% công suất dự trữ của nó đã được sử dụng là 1955 lĩnh vực. Do đó, công suất ban đầu là khoảng năm 2057. Thực tế là năm 2048, sự khác biệt là do lỗi làm tròn.

SMART biến ổ đĩa thành trạng thái không thành công khi số lượng các khu vực được phân bổ lại đạt đến một ngưỡng nhất định. Đối với ổ đĩa trong câu hỏi, ngưỡng này được đặt ở mức 64% dung lượng dự trữ. Đó là khoảng 1310 lĩnh vực ánh xạ lại.

Tuy nhiên, các khu vực dành riêng không nằm trong một khoảng liên tục. Thay vào đó, chúng được chia thành nhiều nhóm, mỗi nhóm đang được sử dụng để ánh xạ lại các thành phần từ một phần cụ thể của đĩa. Điều này được thực hiện để giữ dữ liệu cục bộ đến một khu vực trên đĩa.

Nhược điểm của địa phương là đĩa có thể có nhiều khu vực dành riêng. Tuy nhiên, một khu vực có thể đã hết dung lượng dự trữ. Trong trường hợp này, hành vi phụ thuộc vào phần sụn. Trên một ổ đĩa, chúng tôi đã quan sát thấy nó đi vào trạng thái FAILED và chặn khi xảy ra lỗi trong một phần không còn được bảo vệ.


Làm thế nào bạn xác định rằng "có 2048 khu vực dành riêng cho việc tái phân bổ"?
AJ.

Có lẽ 2047 là số lượng tối đa của các lĩnh vực được phân bổ lại. Một trong những ổ đĩa của tôi có chính xác là 2047 khi mua ngoài eBay với giá "mới", đó là 0x7FF, cũng là b11.111.111.111. Đến năm 2048 sẽ lãng phí thêm một chút.
davide

2

Bạn có thể muốn chạy tự kiểm tra SMART dài, nếu ổ đĩa hỗ trợ nó. Điều này có thể cung cấp cho bạn thêm thông tin về trạng thái của ổ đĩa. Nếu NAS của bạn không thể làm điều này và nếu bạn có thể rút ổ đĩa ra hoặc tắt nguồn NAS trong vài giờ, thì bạn có thể tự kiểm tra lâu với đĩa cứng được cắm vào máy khác.


1

Khi một ổ đĩa này hoạt động như thế này thì không đáng tin chút nào!

Gửi lại càng sớm càng tốt và lấy một ổ đĩa thay thế.


1

Các nhà sản xuất khác nhau có số "mất chấp nhận" khác nhau (cùng ý tưởng với màn hình và pixel xấu). Kiểm tra với nhà sản xuất ổ đĩa để tìm ra tiêu chuẩn của họ là gì.

Nó trông giống như một xu hướng xấu mặc dù ...


-1

Western Digital đặc biệt tự hào bởi công nghệ phục hồi khu vực xấu trong thời gian có thể chấp nhận thay vì đóng băng đĩa được đặt trong RAID, tên của nó là TLER ( http://en.wikipedia.org/wiki/Time-Liated_Error_Recovery ). Thời gian thường là 5.,7 giây.

Như tôi tìm thấy trên web có các ổ đĩa WD với tùy chọn bị vô hiệu hóa nhưng một số người đã kích hoạt tính năng này trên các ổ WD xanh giá rẻ sau đó đặt chúng vào RAID.

Tiện ích WDTLER bị xóa khỏi trang web hỗ trợ WD nhưng có thể dễ dàng phát hiện qua Google.

PS Tôi chỉ sử dụng tiện ích này để đọc trạng thái và hiện tại tôi không sử dụng RAID :)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.