Thời gian trung bình để thất bại (MTTF): Khi các nhà sản xuất đĩa đăng bài này, bạn nên diễn giải các con số của họ như thế nào?


10

Thời gian trung bình để thất bại (MTTF) thường được tính theo giờ và bằng cách thực hiện một số tính toán, có vẻ như một đĩa chỉ bị hỏng sau khi một số năm tốt đã trôi qua.

Có vẻ như các đĩa cần sửa chữa thường xuyên hơn thế. Có ai biết tại sao điều này là như vậy?

Tôi đoán rằng có một cái gì đó tanh cá về số liệu này. Đang diễn giải điều gì sai ở đây?

Câu trả lời:


14

Trước hết:

MTTF = Thời gian trung bình để thất bại
MTTR = Thời gian trung bình để sửa chữa
MTBF = Thời gian trung bình giữa các lần hỏng hóc = MTTF + MTTR

MTBF thường ít nhiều bằng MTTF, vì việc sửa chữa có thể mất một giờ và MTTF có thể là hàng chục ngàn giờ. Nhưng MTBF thường không được áp dụng, vì các sản phẩm bị lỗi không được sửa chữa mà chỉ được thay thế, vì chi phí sửa chữa nhiều hơn thay thế.

Tính toán MTTF là một phương pháp thống kê phức tạp liên quan đến việc tính toán tỷ lệ thất bại của từng bộ phận. Và đó không phải là một điều tuyến tính như mọi người đôi khi đoán. Nếu bạn có MTTF 1000 000 giờ, điều đó không có nghĩa là trong 1000 thiết bị sẽ có một lỗi sau 1000 giờ hoặc bạn sẽ gặp lỗi trong 1000 000 thiết bị sau 1 giờ.
Nhiều thiết bị điện tử đi theo "đường cong bồn tắm" ,

nhập mô tả hình ảnh ở đây

nơi có nhiều thất bại từ rất sớm, sau đó một thời gian dài hầu như không có bất kỳ thất bại nào và gần cuối đời, số lần thất bại lại tăng lên. Trong các đĩa cứng cũng có một số bộ phận cơ học có đường cong thất bại tuyến tính hơn; điều này từ từ tăng lên từ ngày 1.

Nếu nhà sản xuất nói ví dụ 1000 000 giờ MTTF (thường là POH hoặc Giờ bật nguồn), điều đó có nghĩa là trung bình ổ đĩa sẽ tồn tại> 100 năm. Một số ổ đĩa sẽ tồn tại lâu hơn, một số sẽ thất bại sớm hơn. Vì vậy, mặc dù 1000 000 giờ, hoàn toàn có thể gặp sự cố sau 1000 giờ. Tôi đã từng có một lần lái xe thất bại trong vòng một tuần, và sau đó bạn phải nghĩ lại đường cong bồn tắm. Ổ đĩa thay thế đã quay rất vui vẻ trong> 50 nghìn giờ.


3
Một vài điều đáng chú ý có thể là thực tế là những thất bại sớm thường được gọi là burn-in. Các nhà sản xuất có lỗi sớm thấp hơn nhiều thường chạy các thiết bị thông qua giai đoạn burn-in của họ. Ngoài ra, các thiết bị điện tử thuần túy không biểu hiện thời gian hao mòn và chỉ bị cháy.
Kortuk

1
Lưu ý rằng khi bạn đang tính toán MTTF (hoặc MTBF), bạn thường chỉ sử dụng một phân phối duy nhất để mô hình hóa các lỗi. Do đó, việc tính toán dựa trên "tỷ lệ tử vong ở trẻ sơ sinh", "cuộc sống bình thường" hoặc phân phối "hao mòn cuối đời". Điều duy nhất phân biệt ba phân phối này là tham số hình dạng Weibull, nếu bạn đang sử dụng Weibull làm phân phối cơ bản của mình. Trường hợp duy nhất trong đó các thất bại xuất phát từ phân phối "cuộc sống bình thường" là khi thời gian sẽ không ảnh hưởng đến tỷ lệ thất bại, và do đó phân phối sẽ theo cấp số nhân.

2
MTTF chủ yếu hữu ích như một chỉ dẫn về loại cuộc sống mà bạn nên mong đợi từ thiết bị hoặc widget. Vì lý do rõ ràng, đó là một dự đoán chính xác về ngày hỏng hóc của thiết bị. Đây chỉ là ước tính dựa trên phân tích thống kê dữ liệu hiện có và chỉ nên được xem xét như vậy. Hữu ích cho việc lập ngân sách (tôi nên khấu hao hoặc khấu hao chi phí ở đây trong bao lâu) và lập kế hoạch (chúng tôi có thể mong đợi tiện ích này thực hiện trong bao lâu trước khi chúng tôi phải nhận khoản tiếp theo).
music2myear

Trước hết, "lỗi đĩa" chính xác gì?
Kaitlyn Mcmordie

2
@Kaitlyn - Tôi đoán bạn đang đề cập đến các lĩnh vực xấu. Tôi muốn nói rằng lỗi đĩa là khi bạn không thể đọc hoặc ghi vào ổ đĩa nữa. Thường là một lỗi cơ học, như một vụ tai nạn đầu. Điều này thường xảy ra khi bạn vẫn còn nhiều lĩnh vực tốt.
stevenvh

4

Nếu một thiết bị có chỉ số MTBF sử dụng 1.000.000 giờ, điều đó không có nghĩa là bất kỳ thiết bị nào cũng có thể được dự kiến ​​kéo dài 1.000.000 giờ. Thay vào đó, điều đó có nghĩa là, đại khái là, nếu 1.000.000 thiết bị trong vòng đời dịch vụ được xếp hạng của chúng được vận hành trong một giờ hoặc 100.000 thiết bị hoạt động trong mười giờ (nhưng vẫn trong vòng đời được xếp hạng), hoặc 60.000.000 trong một phút, v.v. sẽ có khoảng một thất bại trong lô. Lưu ý rằng tuổi thọ của dịch vụ được xếp hạng là hoàn toàn trực giao với MTBF. Hãy xem xét hai loại vật dụng sau:

  1. Mỗi widget, bất kể tuổi tác, có 0,1% cơ hội thất bại mỗi giờ.
  2. Trong số hàng tỷ vật dụng, tất cả trừ một vật dụng sẽ hoạt động chính xác trong 61 phút và sau đó chết; người đó sẽ chết sau 30 phút; các vật dụng có thời gian phục vụ được chỉ định là 60 phút.

Loại phụ tùng đầu tiên sẽ có tuổi thọ trung bình khoảng 1.000 giờ, và cũng có một MTBF khoảng 1.000 giờ. Lần thứ hai sẽ có thời gian tồn tại trung bình là 61 phút, nhưng một MTBF là 1.000.000.000 giờ trong vòng đời dịch vụ của nó. Mặc dù có vẻ kỳ quặc khi nói thiết bị thứ hai có một chiếc MTBF dài gần gấp tỷ lần so với tuổi thọ dự kiến, nhưng MTBF hầu như không phải là một con số vô nghĩa.

Giả sử một người sẽ tiến hành một thử nghiệm yêu cầu tất cả 1.000.000 thiết bị hoạt động hoàn hảo trong một giờ, sau đó tất cả chúng sẽ bị loại bỏ. Nếu bất kỳ thiết bị nào thất bại, toàn bộ thử nghiệm sẽ bị hủy hoại. Điều này sẽ hữu ích hơn - một thiết bị sẽ tồn tại trung bình 1.000 giờ nhưng có chỉ số MTBF chỉ 1.000 giờ hoặc thiết bị tồn tại tối đa 61 phút, nhưng sẽ chỉ có một cơ hội trong một tỷ cơ hội không thành công đáp ứng dấu ấn đó?


Vì vậy, điểm mấu chốt là chúng ta không nên xem MTBF là 10 ^ 6 giờ là "thời gian sống trung bình" của bất kỳ đĩa cụ thể nào, mà là một thước đo liên quan đến tuổi thọ của nhiều đĩa?
Kaitlyn Mcmordie

@Kaitlyn Mcmordie: Thuật ngữ "trọn đời" không thực sự áp dụng; cái chết không bao hàm sự thất bại, hay ngược lại. Nhà sản xuất thiết bị lưu trữ có thể chỉ định các quy trình cần tuân thủ để tránh mất dữ liệu; các quy trình như vậy có thể bao gồm việc di chuyển tất cả các dạng dữ liệu của bất kỳ thiết bị nào có dấu hiệu "sắp xảy ra lỗi" sang thiết bị mới (sau khi dữ liệu được sao chép, thiết bị cũ sẽ bị coi là "chết"). Nếu không có mất dữ liệu xảy ra từ một sự kiện như vậy, đó không phải là một thất bại. Mất dữ liệu xảy ra từ bất kỳ thiết bị nào, tuy nhiên, ngay cả một thiết bị có vẻ khỏe mạnh, là một thất bại. Không có gì để làm với cuộc sống.
năm11

2

Thêm vào câu trả lời của stevenvh: Tất cả các nhà sản xuất đĩa nổi tiếng đều thực hiện một loạt các thiết bị mới, cũng như các nhà sản xuất linh kiện điện tử. Trong các đĩa cứng, không chỉ có một tổng thể MTBF và MTTF mà còn có các thống kê lỗi riêng lẻ cho các khối của các đĩa. Nói cách khác: Một số phần của vòng quay, "đĩa" trong đĩa có thể bị lỗi, trong khi phần lớn vẫn đọc / ghi ok. Cái gọi là "các thành phần xấu" có thể được phát hiện và sau đó được ánh xạ bởi phần sụn bên trong ổ đĩa.

Tất cả các ổ đĩa ngày nay có chứa các khu vực bổ sung dự trữ mà sau đó có thể được sử dụng thay cho các khu vực bị lỗi. Đây chỉ đơn giản là một biện pháp phòng ngừa của nhà sản xuất: Nếu họ không làm điều này, họ không thể bán đĩa với công suất được công bố. Nếu họ xây dựng thêm x% các lĩnh vực ẩn làm dự trữ, họ sẽ tăng chi phí thêm <x% nhưng đạt được năng suất sản xuất chung cao hơn nhiều.

Các đĩa ngày nay giữ một số lượng các thành phần xấu cũng có thể được đọc ra với phần mềm thích hợp. Thông số sức khỏe đĩa này và các thông số khác (ví dụ nhiệt độ) được gọi là giá trị SMART .

Bây giờ, một khi nhà sản xuất đã thực hiện kiểm tra ổ đĩa và một số lĩnh vực gần như bị lỗi và đã được phần mềm bên trong của ổ đĩa sửa lại, tham số SMART của "Số ngành xấu" được đặt thành 0. Sau đó, thông số SMART ổ đĩa được giao cho khách hàng.

Thông thường, sau quá trình burn-in, bắt đầu đường cong bồn tắm đã được đề cập không còn được nhìn thấy bởi khách hàng. Chúng tôi may mắn, và chỉ thấy sự gia tăng khả năng thất bại theo thời gian.

Vì vậy, nếu bạn nhìn vào MTTF được trích dẫn bởi nhà sản xuất, đối với bất kỳ mô hình lỗi nào bạn có thể muốn làm, bạn có thể bỏ qua sự bắt đầu của đường cong bồn tắm.


Cảm ơn bạn. Btw, bạn có biết thuật ngữ "lỗi máy chủ" nghĩa là gì không?
Kaitlyn Mcmordie

Ý nghĩa rõ ràng là một lỗi máy tính cung cấp dịch vụ cho người khác. Và tôi tin rằng đó là thời gian mà bạn phải đặt câu hỏi trên serverfault.com ;-) Không thể tìm thấy bất cứ điều gì về Câu hỏi thường gặp
cfi

-2

Bạn nên giải thích điều này như tiếp thị. Họ thực sự không biết chính xác MTBF (Thời gian trung bình giữa các lần thất bại), vì vậy họ sử dụng nhiều thủ thuật khác nhau để ước tính và họ hiển thị số lượng cao hơn cho các ổ đĩa 'doanh nghiệp' để chứng minh chi phí của họ.

Trên thực tế, việc các nhà sản xuất ổ cứng của họ thất bại ngay sau khi hết bảo hành là có lợi.

Theo lý thuyết âm mưu, tôi tin rằng thất bại hàng loạt của Seagate 7200.11 là một sai lầm trong việc thực hiện 'cái chết được lập trình' khiến các đĩa bị hỏng trước khi bảo hành kết thúc, vì vậy họ phải 'khắc phục' bằng cách cập nhật firmware.


Tôi không mua tranh luận về âm mưu này.

1
@Federico Russo: Tại sao? Bạn nghĩ rằng đó chỉ là một lỗi nhà phát triển thông thường, khiến ổ cứng bị khóa trong trạng thái không thể phục hồi sau một số giờ nhất định?
BarsMonster

2
-1: Phân tích thống kê được sử dụng để xác định số MTBF và được biết đến theo một thống kê nhất định - họ không chỉ sử dụng "các thủ thuật khác nhau". Bạn sẽ cần một số nguồn quan trọng để sao lưu các xác nhận của mình rằng các ổ đĩa doanh nghiệp chỉ là con số cao hơn, rằng các nhà sản xuất ổ cứng đã bị hỏng ổ đĩa sau khi bảo hành kết thúc và Seagate thực hiện bất kỳ "cái chết được lập trình" nào trong các ổ đĩa của họ.
Kevin Vermeer

1
Đó là lợi ích tốt nhất của các nhà sản xuất ổ đĩa để hiển thị MTTF cao hơn so với đối thủ cạnh tranh của họ. +1
tyblu

Chính xác thì lỗi đĩa là gì? Những gì được tính cho một?
Kaitlyn Mcmordie
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.