Thời gian trung bình giữa các lần thất bại - SSD


32

Các Mean Time Between thất bại , hoặc MTBF, cho này SSD được liệt kê như 1,500,000giờ.

Đó là rất nhiều giờ. 1,500,000giờ là khoảng 170năm Vì phát minh ra chiếc SSD đặc biệt này là sau Nội chiến, làm thế nào để họ biết MTBF là gì?

Một vài lựa chọn có ý nghĩa với tôi:

  • Newegg chỉ có một lỗi đánh máy
  • Định nghĩa về thời gian trung bình giữa các lần thất bại không phải là điều tôi nghĩ
  • Họ đang sử dụng một số loại ngoại suy thống kê để ước tính MTBF sẽ là gì

Câu hỏi:

Thời gian trung bình giữa các lần hỏng hóc (MTFB) thu được cho SSD / HDD như thế nào?


Câu trả lời:


34

Các nhà sản xuất ổ đĩa xác định độ tin cậy của các sản phẩm của họ theo hai số liệu liên quan: tỷ lệ thất bại hàng năm (AFR), là tỷ lệ phần trăm ổ đĩa trong dân số thất bại trong thử nghiệm được tính theo ước tính mỗi năm; và thời gian trung bình để thất bại (MTTF).

AFR của một sản phẩm mới thường được ước tính dựa trên các bài kiểm tra về tuổi thọ và căng thẳng được tăng tốc hoặc dựa trên dữ liệu thực địa từ các sản phẩm trước đó. MTTF được ước tính là số lượng điện năng tính theo giờ mỗi năm chia cho AFR. Một giả định phổ biến cho các ổ đĩa trong máy chủ là chúng được cung cấp 100% thời gian.

http://www.cs.cmu.edu/~bianca / fast /

MTTF 1,5 triệu giờ nghe có vẻ hợp lý.

Đó gần như là một thử nghiệm với 1000 ổ đĩa chạy trong 6 tháng và 3 ổ đĩa bị lỗi.
AFR sẽ là (2 * 6 tháng * 3) / (1000 ổ đĩa) = 0,6% hàng năm và MTTF = 1yr / 0,6% = 1,460,967 giờ hoặc 167 năm.

Một cách khác để xem con số đó là khi bạn có 167 ổ đĩa và để chúng chạy trong một năm, nhà sản xuất tuyên bố rằng trung bình bạn sẽ thấy một ổ đĩa bị lỗi.

Nhưng tôi hy vọng đó chỉ đơn giản là tỷ lệ thất bại cơ học / điện tử "ngẫu nhiên" không đổi.

Giả sử tỷ lệ thất bại đi theo đường cong bồn tắm , như đã đề cập trong các bình luận, nhóm tiếp thị của nhà sản xuất có thể xoa bóp các con số đáng tin cậy một chút, chẳng hạn như không bao gồm DOA'S (chết khi đến, các đơn vị đã vượt qua kiểm soát chất lượng nhưng thất bại khi người dùng cuối cài đặt chúng) và kéo dài định nghĩa DOA để loại trừ những người trong trường hợp thất bại sớm. Và bởi vì thử nghiệm không được thực hiện đủ lâu, bạn cũng sẽ không thấy hiệu ứng tuổi tác.

Tôi nghĩ thời hạn bảo hành là một dấu hiệu tốt hơn cho việc nhà sản xuất thực sự mong đợi một ổ SSD sẽ tồn tại bao lâu!
Điều đó chắc chắn sẽ không được đo lường trong nhiều thập kỷ hoặc thế kỷ ...


Liên kết với MTBF là độ tin cậy liên quan đến số lượng hữu hạn của chu kỳ ghi mà các tế bào NAND có thể hỗ trợ. Một số liệu phổ biến là tổng dung lượng ghi, thường bằng TB. Ngoài các yêu cầu hiệu suất khác đó là một giới hạn lớn.

Để cho phép so sánh thuận tiện hơn giữa các ổ đĩa khác nhau và có kích thước khác nhau, độ bền ghi thường được chuyển đổi thành dung lượng ghi hàng ngày dưới dạng một phần dung lượng đĩa.

Giả sử rằng một ổ đĩa được đánh giá là tồn tại miễn là được bảo hành:
ổ SSD 100 GB có thể có bảo hành 3 năm và dung lượng ghi 50 TB:

        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

Con số đó càng cao, đĩa càng phù hợp để ghi IO chuyên sâu.
Hiện tại (cuối năm 2014), dòng máy chủ giá trị SSD có giá trị 0,3-0,8 ổ / ngày, tầm trung đang tăng dần từ 1-5 và cao cấp dường như là tên lửa trên bầu trời với mức độ bền bỉ lên tới 25 * công suất ổ đĩa mỗi ngày trong 3-5 năm.

Một số thử nghiệm trong thế giới thực cho thấy rằng đôi khi các khiếu nại của nhà cung cấp có thể bị vượt quá ồ ạt, nhưng việc lái thiết bị vượt quá giới hạn của nhà cung cấp không phải lúc nào cũng được doanh nghiệp cân nhắc ... Thay vào đó hãy mua các ổ đĩa chính xác cho mục đích của bạn.


1
Lưu ý rằng việc chuyển đổi từ AFR sang MTTF giả định AFR không đổi. Điều này hoàn toàn không đúng với những thứ có bộ phận chuyển động (ví dụ: ổ cứng) và có thể không đúng với SSD.
Đánh dấu

Chắc chắn là đúng. IIRC có sự thất bại sớm tăng đột biến, sau đó là giai đoạn thất bại thấp và sau đó là sự gia tăng ổn định trong AFR với tuổi tăng. Thêm các yếu tố môi trường thay đổi và số thế giới thực trở nên cao hơn nhiều. Như @Chris S đã đề cập, thời hạn bảo hành có thể là một số liệu tốt hơn với tác động trong thế giới thực hữu ích.
HBruijn

Quan điểm tỉnh táo tốt rằng một MTBF 1000 giờ có nghĩa là thực sự "Nếu tôi có 1000 ssd như thế này, 3 có thể sẽ thất bại trong vòng 6 tháng (một số thậm chí sớm hơn thế) ...". +1 (và vì các bài kiểm tra đã qua một khoảng thời gian ngắn, hy vọng tuổi thọ của những người đó không vượt quá quá nhiều bảo hành ... "MTBF" có thể giảm rất nhiều khi ổ đĩa của bạn đạt đến N tuổi)
Olivier Dulac

1
@HBruijn Cảm ơn câu trả lời đầy thông tin của bạn. Hiện tượng bạn đang đề cập đến (tăng đột biến sớm, thời gian thất bại thấp, sau đó tăng thất bại đều đặn) được mô tả bằng đường cong bồn tắm .
OSE

19

Thật không may, MTBF không phải là những gì hầu hết mọi người nghĩ ...

  • không phải là một ổ đĩa cá nhân sẽ kéo dài bao lâu.

    Các nhà sản xuất hy vọng ổ đĩa của họ sẽ tồn tại miễn là bảo hành, sau đó nó thực sự không phải là vấn đề của họ. Ổ đĩa cứng điện từ cũ hơn sẽ tăng lên sau 10 năm. Các mạch tích hợp tồn tại trong một thời gian rất dài, nhưng các thành phần khác (đáng chú ý là tụ điện) bị hao mòn sau một số chu kỳ có thể dự đoán được.

  • Đó số lượng ổ đĩa bạn cần để mong đợi 1 ổ đĩa bị lỗi mỗi giờ.

    Như những người khác đã chỉ ra các nhà sản xuất thực hiện các thử nghiệm khác nhau trong một khoảng thời gian hợp lý và xác định tỷ lệ thất bại. Có một số lượng phương sai khá lớn trong các loại thử nghiệm và tiếp thị này thường có "đầu vào" như con số cuối cùng sẽ là bao nhiêu. Bất kể họ có nỗ lực tốt nhất để đoán xem cần bao nhiêu ổ đĩa để trung bình một lỗi mỗi giờ.

    Đối với các tình huống có ít ổ đĩa hơn, bạn có thể suy ra xác suất thất bại thống kê dựa trên MTBF, nhưng hãy nhớ rằng các lỗi trong các sản phẩm được thiết kế tốt nên đi theo đường cong "bồn tắm" - đó là tỷ lệ thất bại cao hơn khi các thiết bị ban đầu được đưa vào sử dụng và sau đó thời hạn bảo hành của họ đã hết hạn, với tỷ lệ thất bại thấp hơn ở giữa.


2

Họ đến từ một đánh giá thống kê dựa trên một cỡ mẫu nhỏ và một khoảng thời gian ngắn. Thực sự không có phương pháp hay quy trình nào được thống nhất trên toàn cầu nên nó thực sự chỉ là 'tiếp thị' ngớ ngẩn.

Bài viết này có thể giải thích nó một chút nữa. Và Wikipedia có một số công thức có thể là những gì bạn đang tìm kiếm?

Về cơ bản, đối với hầu hết mọi thứ (bao gồm cả máy gia dụng thông thường như máy rửa chén), một số sản phẩm được chạy trong X lượng thời gian. Có bao nhiêu thất bại xảy ra trong giai đoạn này được sử dụng để tính toán MTFB.

Tất nhiên, không thể chạy các sản phẩm trong toàn bộ vòng đời, tức là SSD, sẽ tồn tại lâu dài. Chúng hầu hết bị giới hạn bởi số lượng ghi thay vì thất bại cơ học (đó là những gì MTFB dành cho)


2

Tin xấu về MTBF là các phép đo đánh giá phổ biến cho rằng tải ghi phân bố đồng đều giữa tất cả các ô NAND. Nhưng các ô được nhóm thành các cụm và khi một ô duy nhất thất bại - toàn bộ cụm được đánh dấu là đã chết và được thay thế bằng một ô mới từ dự trữ. Thông thường dự trữ là khoảng 20% ​​khối lượng SSD. Khi hết dự trữ, toàn bộ SSD sẽ bị đánh dấu là đã chết.

IRL SSD chứa dữ liệu liên tục cũng như biến động. Hãy tưởng tượng rằng bạn có 90% SSD chứa đầy dữ liệu tĩnh và 10% còn lại nằm dưới tải ghi nặng. Bộ điều khiển SSD trải đều tải giữa các cụm miễn phí có sẵn. 10% đó làm cạn kiệt tuổi thọ của họ nhanh hơn 10 lần so với bạn ước tính. Chúng sẽ được thay thế từ dự trữ hết lần này đến lần khác cho đến khi kết thúc.

Trong trường hợp thực sự tồi tệ khi lượng dữ liệu liên tục / biến động là 30: 1 hoặc cao hơn, chẳng hạn - đống ảnh và cơ sở dữ liệu tương đối nhỏ cho trang web phổ biến, SSD của bạn sẽ chết trong một năm.

Một trong những khách hàng của tôi rất ấn tượng với các đặc điểm của SSD và khăng khăng trang bị cho máy chủ DBMS của mình với cặp của họ. Trong 12 tháng tới, chúng tôi đã thay thế cả hai lần.

Nhưng theo tuổi thọ vật liệu tiếp thị của SSD là 170 năm. Chắc chắn rồi.


1

MTBF không liên quan để đo độ bền của ổ SSD vì SSD không nhạy cảm với thời gian như ổ đĩa cứng quay thông thường mà là số lần ghi lại cho các tế bào SSD. Biện pháp phù hợp hơn cho SSD là Drive Writes Per Day (DWPD) . Ví dụ, một số ổ SSD cấp doanh nghiệp, độ bền 3,2TB sẽ là 3 DWPD trong 5 năm.

Đôi khi, nhà cung cấp SSD cung cấp độ bền về (Tổng số) Terabyte được ghi (TBW) hoặc "Chu kỳ ghi" có thể dễ dàng dịch sang DWPD và ngược lại biết thời gian và thông lượng tối đa cho ổ SSD đã cho.

Ví dụ đã cho với ổ SSD 3.2Tb:
TBW = DriveSize * Năm * DWPD;
TBW = 3,2TB * 5 * 365 * 3d = 17520 TB trong 5 năm

Nếu ổ đĩa cung cấp 80 MByte mỗi giây thông lượng ghi bền vững, thì
WriteC đua = DWPD * Năm;
WriteC chu kỳ = 3 * 365 * 5 = 5475 tổng số chu kỳ ghi cho đĩa đã cho

Điều quan trọng cần lưu ý là chúng tôi đang tính toán trường hợp xấu nhất nếu bạn sẽ cung cấp thông lượng sử dụng 100% cho ổ đĩa (điều này rất có thể là không thể).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.