Công thức tính xác suất lỗi đọc không thể phục hồi trong quá trình xây dựng lại RAID

12

Tôi muốn so sánh độ tin cậy của các hệ thống RAID khác nhau với các ổ đĩa tiêu dùng (URE / bit = 1e-14) hoặc doanh nghiệp (URE / bit = 1e-15). Công thức để có xác suất thành công của việc xây dựng lại (bỏ qua các vấn đề cơ học, mà tôi sẽ tính đến sau) rất đơn giản:

error_probability = 1 - (1-per_bit_error_rate) ^ bit_read

Điều quan trọng cần nhớ là đây là xác suất để có được một URE, không nhất thiết chỉ có một.

Giả sử chúng ta muốn có 6 TB không gian có thể sử dụng. Chúng ta có thể lấy nó với:

RAID1 với mỗi đĩa 1 + 1 6 TB. Trong quá trình xây dựng lại, chúng tôi đọc lại 1 đĩa 6TB và rủi ro là: 1- (1-1e-14) ^ (6e12 * 8) = 38% cho người tiêu dùng hoặc 4,7% cho ổ đĩa doanh nghiệp.
RAID10 với 2 + 2 đĩa 3 TB mỗi đĩa. Trong quá trình xây dựng lại, chúng tôi chỉ đọc lại 1 đĩa 3TB (ổ được ghép với ổ không thành công!) Và rủi ro thấp hơn: 1- (1-1e-14) ^ (3e12 * 8) = 21% cho người tiêu dùng hoặc 2,4% cho ổ đĩa doanh nghiệp.
RAID5 / RAID Z1 với mỗi đĩa 2 + 1 dung lượng 3TB. Trong quá trình xây dựng lại, chúng tôi đọc lại 2 đĩa 3TB mỗi ổ và rủi ro là: 1- (1-1e-14) ^ (2 * 3e12 * 8) = 38% cho người dùng hoặc 4,7% hoặc ổ đĩa doanh nghiệp.
RAID5 / RAID Z1 với mỗi đĩa 3 + 1 2 TB (thường được sử dụng bởi người dùng các sản phẩm SOHO như Synologys). Trong quá trình xây dựng lại, chúng tôi đọc lại 3 đĩa 2TB mỗi ổ và rủi ro là: 1- (1-1e-14) ^ (3 * 2e12 * 8) = 38% cho người dùng hoặc 4,7% hoặc ổ đĩa doanh nghiệp.

Tính toán sai số cho dung sai đĩa đơn là dễ dàng, khó hơn là tính xác suất với các hệ thống chịu được nhiều lỗi đĩa (RAID6 / Z2, RAIDZ3).

Nếu chỉ có đĩa thứ nhất được sử dụng để xây dựng lại và đĩa thứ hai được đọc lại từ đầu trong trường hợp hoặc URE, thì xác suất lỗi là ổ được tính trên căn bậc hai (14,5% cho người tiêu dùng RAID5 2 + 1, 4,5% cho người tiêu dùng RAID1 1 + 2). Tuy nhiên, tôi cho rằng (ít nhất là trong ZFS có tổng kiểm tra đầy đủ!) Rằng ngang bằng thứ hai / đĩa khả dụng chỉ được đọc khi cần, có nghĩa là chỉ cần vài cung: có bao nhiêu URE có thể xảy ra trong đĩa thứ nhất? không nhiều, nếu không thì xác suất lỗi cho các hệ thống dung sai đĩa đơn sẽ tăng vọt thậm chí nhiều hơn tôi đã tính.

Nếu tôi đúng, một đĩa chẵn lẻ thứ hai thực tế sẽ giảm rủi ro xuống các giá trị cực kỳ thấp.

Đặt câu hỏi sang một bên, điều quan trọng cần lưu ý là các nhà sản xuất tăng xác suất URE cho các ổ đĩa dành cho người tiêu dùng vì lý do tiếp thị (bán thêm ổ đĩa cấp doanh nghiệp), do đó, ngay cả các ổ cứng loại tiêu dùng cũng sẽ đạt được đọc 1E-15 URE / bit .

Một số dữ liệu: http://www.high-rely.com/hr_66/blog/why-ston-5-stops- Work-in-2009-not /

Do đó, các giá trị tôi cung cấp trong ngoặc đơn (ổ đĩa doanh nghiệp) cũng áp dụng thực tế cho ổ đĩa tiêu dùng. Và các ổ đĩa doanh nghiệp thực sự có độ tin cậy cao hơn nữa (URE / bit = 1e-16).

Liên quan đến xác suất thất bại cơ học, chúng tỷ lệ thuận với số lượng đĩa và tỷ lệ thuận với thời gian cần thiết để xây dựng lại.

raid zfs rebuild

— FarO
nguồn

1

Xin chào Olaf! Theo như tôi quan tâm, câu hỏi này có vẻ hơi quá cụ thể đối với phần cứng máy tính để phù hợp với Toán học , nhưng bạn có thể hỏi trên trang meta của họ nếu họ muốn có câu hỏi của bạn. Nếu đó là trường hợp, gắn cờ một lần nữa và chúng tôi sẽ vui lòng di chuyển nó cho bạn!

— slhck

2

Làm thế nào chính xác để bạn đạt đến xác suất URE 38% cho RAID5 với 3 ổ đĩa? Sử dụng URE = 10 ^ 14, HDD = 3,5 * 1024 ^ 4 byte tôi nhận được 3,8% URE cho mỗi ổ đĩa và 11,1% cho URE trong khi xây dựng lại. Đó là: 100 * (1- (1- (hdd / ure)) ^ 3). Tôi nghĩ rằng con số của bạn là một chút (mặc dù tỷ lệ thất bại thực tế cao hơn so với những gì được nêu bởi các nhà sản xuất). Vì tỷ lệ lỗi được đưa ra cho mỗi bit đọc trên mỗi ổ đĩa chứ không phải cho mỗi bit đọc, tôi nghĩ phần bạn sử dụng ^ bit_read là sai. Có lẽ cung cấp thêm chi tiết về cách bạn tính các tỷ lệ cược đó? +1 cho câu hỏi thú vị. cs.cmu.edu/~bianca/fast07.pdf

— Ярослав Рахматуллин

Đã thêm thông tin và kiểm tra tính toán.

— FarO

3

Đây là câu trả lời tốt nhất, với lý thuyết xác suất quá:

http://evadman.blogspot.com/2010/08/ston-array-failure-probabilities.html?showVer=1337533818123#c7465506102422346169

— FarO
nguồn

2

Có một số trang web và bài viết cố gắng giải quyết câu hỏi này.

Đây trang web có tính đối với RAID 0, 5, 10/50/60 cấp.

Bài viết trên wikipedia về cấp độ RAID có các phần về tỷ lệ thất bại của RAID 0 và RAID 1.

RAID 0 :

Độ tin cậy của bộ RAID 0 đã cho bằng với độ tin cậy trung bình của mỗi đĩa chia cho số lượng đĩa trong bộ:

Nghĩa là, độ tin cậy (được đo bằng thời gian trung bình đến thất bại (MTTF) hoặc thời gian trung bình giữa các lần thất bại (MTBF)) tỷ lệ nghịch với số lượng thành viên - vì vậy một bộ hai đĩa có độ tin cậy gần bằng một đĩa. Nếu có xác suất 5% rằng đĩa sẽ thất bại trong vòng ba năm, thì trong một mảng hai đĩa, xác suất đó sẽ được tăng lên {P} (ít nhất một lần thất bại) = 1 - {P} (không thất bại) = 1 - (1 - 0,05) ^ 2 = 0,0975 = 9,75%.

RAID 1 :

Như một ví dụ đơn giản, hãy xem xét RAID 1 với hai mô hình ổ đĩa giống hệt nhau, mỗi mô hình có xác suất 5% rằng đĩa sẽ bị lỗi trong vòng ba năm. Với điều kiện là các thất bại là độc lập thống kê, thì xác suất cả hai đĩa bị hỏng trong vòng ba năm là 0,25%. Do đó, xác suất mất tất cả dữ liệu là 0,25% trong khoảng thời gian ba năm nếu không có gì được thực hiện cho mảng.

Ngoài ra tôi đã tìm thấy một số bài viết trên blog về chủ đề này bao gồm một này mà nhắc nhở chúng ta những ổ đĩa độc lập trong một hệ thống (I trong RAID) có thể không được độc lập sau khi tất cả:

Giả thuyết ngây thơ là nếu đĩa cứng 1 có xác suất thất bại 1/1000 và đĩa 2 cũng vậy, thì xác suất cả hai đều thất bại là 1 / 1.000.000. Giả định rằng các thất bại là độc lập thống kê, nhưng chúng không phải là. Bạn không thể nhân nhiều xác suất như thế trừ khi những thất bại không được sửa chữa. Giả định sai sự độc lập là một lỗi phổ biến trong việc áp dụng xác suất, có thể là lỗi phổ biến nhất.

Joel Spolsky đã bình luận về vấn đề này trong podcast StackOverflow mới nhất. Khi một công ty xây dựng RAID, họ có thể lấy bốn hoặc năm đĩa ra khỏi dây chuyền lắp ráp cùng nhau. Nếu một trong những đĩa này có một lỗi nhỏ khiến nó bị hỏng sau 10.000 giờ sử dụng, có khả năng tất cả chúng đều bị. Đây không chỉ là một khả năng lý thuyết. Các công ty đã quan sát các lô đĩa đều thất bại cùng một lúc.

— Brad Patton
nguồn