Nơi nào bạn tìm thấy dữ liệu MTBF của bạn?


9

Thời gian trung bình giữa các lần thất bại có thể khó diễn giải, nhưng có rất nhiều phương pháp thống kê mà bạn có thể sử dụng nếu bạn có một số dữ liệu cứng.

Rắc rối là, không ai báo cáo số MTBF của họ nữa. (Dù sao cũng không phải là nhà sản xuất ổ cứng.)

Nơi nào bạn đi để tìm dữ liệu MTBF cho các thành phần và máy chủ?


Tôi tò mò muốn biết làm thế nào bạn đang sử dụng dữ liệu MTBF.
dr.pooter

Câu trả lời:


2

Tại sao MTBF không quan trọng

Thời gian trung bình giữa số lần thất bại không quan trọng bằng tỷ lệ lỗi không thể sửa. MTBF xử lý sự thất bại hoàn toàn của bộ phận, đọc ổ đĩa. Tuy nhiên, con số đó là vô nghĩa khi một bit bị lỗi sẽ khiến RAID 5 hoảng loạn và khiến phụ tùng nóng phát huy tác dụng.

Trong khi MTBF cho các ổ đĩa cấp độ chuyên nghiệp và tiêu dùng đã tăng theo một mức độ lớn trong những năm gần đây, tỷ lệ lỗi không thể sửa chữa vẫn tương đối ổn định. Tốc độ này được ước tính là 10 ^ 14 bit, do đó, một bit trên 12 terabyte đọc, cho các ổ đĩa SATA tiêu dùng, nguồn .

Tại sao bạn nên ngủ quên trên mảng RAID 5 của mình

Vì vậy, đó chỉ là 6 lượt của một thương hiệu đánh vào ổ đĩa 2Tb mới. Mất bao lâu để đọc 12Tb dữ liệu? Ít thời gian hơn nhiều so với MTBF cho ổ đĩa đó.

http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drive/

Điều đáng quan tâm hơn là khả năng xảy ra lỗi đọc kép trên mảng RAID 5 bao gồm các ổ đĩa lớn. Với mảng RAID 5 ổ đĩa 1 1b, khả năng đọc lỗi thứ hai trong khi thực hiện xây dựng lại RAID là 50%.

http://bloss.zdnet.com/st Storage /? p = 162


Bạn luôn có thể sử dụng RAID6?
Chopper3

3
Câu trả lời tuyệt vời, nhưng chỉ bao gồm các ổ đĩa cứng
Mark Henderson

@ Chopper3, vâng, RAID6 sẽ cải thiện tình hình, nhưng một khi bạn đã dành riêng hai ổ đĩa cho nhau, và một phần ba cho dự phòng nóng, thì trên mảng 7 ổ đĩa, bạn đang tiến gần đến cùng một không gian như một mảng RAID10.
Dave Cheney

Tôi đang tìm kiếm dữ liệu không chỉ là ổ cứng. Toàn bộ máy chủ thỉnh thoảng vẫn thất bại, vì vậy, đáng để đo tần suất.

1

Thật là xấu hổ khi mọi người nghĩ rằng các Số liệu MTBF không áp dụng cho các hệ thống phức tạp. Vấn đề thực sự (afaik) là các nhà sản xuất không có số liệu MTBF cho các mô-đun phần cứng của họ. Đây là những số liệu nên có sẵn bởi tất cả các quyền. Dell nói rằng "Dell không còn liệt kê các MTBF cụ thể cho máy chủ của họ." thực sự là tàn bạo! Họ cũng có thể nói "Chà công cụ của chúng tôi thực sự không đủ tin cậy để được sử dụng khi cần có số liệu MTBF".

Kỹ sư đáng tin cậy (hoặc anh chàng đội mũ RE) được cho là giới hạn phạm vi nghiên cứu về tính khả dụng. Điều này thường được giới hạn trong các mô-đun phần cứng.

Đối với việc phân loại những gì tạo nên một thất bại ... Đó là lý do tại sao chúng tôi thực hiện phân tích FMECA.

Chắc chắn các hệ thống rất phức tạp và các chế độ thất bại bao gồm các lỗi phần mềm, nhưng đó thường không phải là phạm vi nghiên cứu. Chúng tôi muốn số liệu MTBF cho phần cứng. Yêu cầu nhân viên bán hàng của bạn cung cấp điều này. Trách nhiệm kỹ thuật của họ là cung cấp cho bạn ... Nếu họ từ chối hoặc bước sang một bên, hãy đến một nơi có máy chủ cấp viễn thông với số liệu sẵn có bắt buộc cho phần cứng.


Vấn đề khi một nhà cung cấp phải xuất bản MTBF là họ phải xuất bản nó sớm hơn họ có thể thu thập dữ liệu thực. Do đó, họ cần phải tạo ra MTBF thông qua một số phép ngoại suy. Đôi khi điều đó có thể được tắt. Trường hợp xấu nhất mà tôi đã thấy là giảm hơn ba bậc độ lớn.
kasperd

0

Tôi đã thấy báo cáo của MTBF trên các trang web hỗ trợ của công ty. Nói chuyện với nhân viên bán hàng của bạn hoặc SE để có được thông tin.


0

Theo quan điểm của tôi, số MTBF đã trở thành một công cụ bán hàng. Phần cứng hiện đại đã đạt đến trạng thái mà số lượng MTBF về cơ bản là vô dụng. Ngay cả những nhà cung cấp bóng thấp nhất cũng đang sản xuất phần cứng vượt xa mọi chu kỳ nâng cấp hợp lý. Như bạn lưu ý, không ai báo cáo số MTBF. Tôi tin rằng đây là lý do.


Tuy nhiên, một số máy chủ vẫn đáng tin cậy hơn những máy chủ khác. Chúng ta cần phải trả lời các câu hỏi như "nguồn cung cấp năng lượng thứ hai có đáng không?" Cho rằng chúng ta cần dữ liệu. Lý tưởng nhất, đó sẽ là số liệu thống kê thất bại thực sự được báo cáo trên toàn bộ các thiết bị tương tự. Chúng tôi sử dụng MTBF như một proxy yếu cho phân phối thực tế đó.

Đủ công bằng. Trong thế giới nhỏ bé của tôi, ý tưởng về sự dư thừa là một phần được mong đợi của quá trình. Đối với một ví dụ khác, hãy xem hầu hết các nhà cung cấp dịch vụ lưu trữ quy mô lớn hoặc google. Tôi vẫn đề nghị rằng với tình trạng hàng hóa của các máy chủ wintel, đây là một vấn đề suy yếu. Nếu bạn đang nói về z-series hoặc tương tự, các phương trình và kỳ vọng sẽ khác nhau nhiều.
dr.pooter

0

Thật không may, MTBF không phải là phép đo thực tế hoặc đáng tin cậy trong các máy chủ hiện đại. Tất cả các khái niệm về MTBF là nếu một mô hình / cấu hình cụ thể đang được sử dụng bởi nhiều người trong thời gian dài, chúng ta có thể biết độ tin cậy của nó.

Ngày nay, hầu hết chúng ta vui vẻ trao đổi độ tin cậy bổ sung tiềm năng để chứng minh hiệu suất và hiệu suất năng lượng cao hơn. Ví dụ, bạn sẽ xây dựng các máy chủ mới của mình trên phần cứng 18-24 tháng tuổi chỉ vì nó chứng minh được tính tương đối của nó? hoặc chỉ đi với thế hệ CPU cuối cùng với nhiều lõi, mã lực và hiệu suất năng lượng hơn?

Ngoài ra, không giống như các hệ thống điện thoại trường học cũ, các hệ thống khá tùy biến, và tất nhiên, phụ thuộc rất nhiều vào phần mềm. Phiên bản BIOS x.xx hoặc trình điều khiển y.yyy đáng tin cậy đến mức nào? Là bản vá máy chủ OS / DB / ứng dụng mới nhất làm tăng tính ổn định hay nó có hồi quy ổn định không? Có bao nhiêu máy chủ trên thế giới thực sự sử dụng cùng một hỗn hợp chính xác của phiên bản phần cứng / ngăn xếp như bạn?

Nếu bạn cần tính sẵn sàng cao, dù sao bạn cũng sẽ cần thêm dự phòng cho hệ thống của mình (mọi thứ kép, phân cụm, phụ tùng nóng, DRP, những gì có bạn). Vì vậy, độ tin cậy tương đối của từng thành phần phần cứng thường không phải là một yếu tố quan trọng, khi bạn xây dựng cơ sở hạ tầng để tồn tại các lỗi thành phần đơn lẻ. Chỉ cần sống với sự không chắc chắn (độ tin cậy là hồi tố) và lập kế hoạch phù hợp.


Vấn đề cấu hình liên tục thay đổi là một vấn đề thực sự. Điều đó gây khó khăn cho việc xây dựng cơ thể trải nghiệm với một điểm cấu hình duy nhất. Tuy nhiên, nếu bạn đang lập kế hoạch cho HA, ngay cả với cấu hình dự phòng, bạn phải có một số khái niệm về độ tin cậy của từng thiết bị.

Dường như không có hy vọng cho CNTT trở thành một khoa học. Chúng tôi tiếp tục làm việc dựa trên các giả định, không có dữ liệu cứng và lãng phí tài nguyên. Giống như ma thuật đen hơn bất cứ thứ gì ngày nay. Kỹ thuật dường như là một mục tiêu xa vời.
Giovanni Tirloni

0

Tôi đồng ý với hầu hết các câu trả lời khác: Số MTBF không hữu ích với tôi và tôi không bao giờ kiểm tra chúng.

Một ngoại lệ là các ổ đĩa cứng, nhưng ngay cả ở đó, tôi chỉ nhìn vào MTBF một cách rất thô bạo, chắc chắn sẽ mua các ổ đĩa "lớp máy chủ" đáng tin cậy hơn nếu có sự lựa chọn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.