Chính xác thì URE là gì?


13

Gần đây tôi đã xem xét RAID5 Vs RAID6 và tôi thấy rằng RAID5 không còn đủ an toàn nữa vì xếp hạng URE và tăng kích thước của các ổ đĩa. Về cơ bản, hầu hết các nội dung tôi tìm thấy đều nói rằng trong RAID5, trong trường hợp bạn bị hỏng đĩa, nếu phần còn lại của mảng là 12TB, thì bạn có gần như 100% cơ hội gặp URE và mất dữ liệu.

Con số 12TB xuất phát từ thực tế là các đĩa được đánh giá ở mức 10 ^ 14 bit được đọc để đạt tới một URE.

Chà, có một cái gì đó tôi không nhận được ở đây. Một lần đọc được thực hiện bởi người đứng đầu trong khu vực, điều có thể làm cho việc đọc thất bại là đầu chết hoặc khu vực chết. cũng có thể là việc đọc không hoạt động vì một số lý do khác (tôi không biết, giống như một rung động làm cho đầu nhảy ...). vì vậy, hãy để tôi giải quyết cả 3 tình huống:

  • việc đọc không hoạt động: điều đó không thể phục hồi, phải không? nó có thể được thử lại.
  • cái đầu chết: điều này chắc chắn sẽ không thể phục hồi được, nhưng, điều đó cũng có nghĩa là đĩa đầy đủ (hoặc ít nhất là bên cạnh) sẽ không thể đọc được, nó sẽ đáng báo động hơn, phải không?
  • ngành chết: cũng hoàn toàn không thể phục hồi, nhưng ở đây tôi không hiểu tại sao đĩa 4TB được đánh giá ở mức 10 ^ 14 cho URE và 8TB cũng được đánh giá ở mức 10 ^ 14 cho URE, điều đó có nghĩa là các ngành trên 8TB (rất có thể là công nghệ mới hơn) đáng tin cậy bằng một nửa so với 4TB, điều đó không có ý nghĩa gì.

Như bạn thấy, từ 3 điểm thất bại tôi xác định, không có ý nghĩa gì. Vậy chính xác thì URE là gì?

Có ai đó có thể giải thích điều đó cho tôi?

Chỉnh sửa 1

Sau làn sóng câu trả lời đầu tiên, có vẻ như lý do là ngành thất bại. Điều tốt là phần sụn, bộ điều khiển RAID và hệ thống tập tin OS + có quy trình để phát hiện sớm các lĩnh vực đó và phân bổ lại.

Chà, bây giờ tôi biết URE là gì (thực ra, cái tên này khá tự giải thích :)).

Tôi vẫn còn bối rối bởi những nguyên nhân cơ bản và chủ yếu là đánh giá ổn định mà họ đưa ra.

Một số người cho rằng khu vực thất bại với các nguồn bên ngoài (sóng vũ trụ), sau đó tôi ngạc nhiên rằng tỷ lệ URE sau đó dựa trên số lượng đọc chứ không phải theo tuổi, sóng vũ trụ thực sự sẽ tác động đến một đĩa cũ hơn đơn giản vì nó đã bị lộ hơn nữa, tôi nghĩ đây chỉ là một ảo mộng mặc dù tôi có thể sai.

Bây giờ đến lý do khác liên quan đến sự hao mòn của đĩa và một số chỉ ra rằng mật độ cao hơn cho miền từ tính yếu hơn, điều đó hoàn toàn có ý nghĩa và tôi sẽ làm theo lời giải thích. Nhưng như được giải thích độc đáo ở đây , các đĩa mới hơn có kích thước khác nhau thu được chủ yếu bằng cách đặt nhiều hoặc ít hơn cùng một đĩa (và sau đó cùng mật độ) vào khung máy HDD. Các lĩnh vực là như nhau và tất cả nên có độ tin cậy rất giống nhau, vì vậy các đĩa lớn hơn nên có xếp hạng cao hơn các đĩa nhỏ hơn, các lĩnh vực được đọc ít hơn, đây không phải là trường hợp, tại sao? Điều đó sẽ giải thích tại sao các đĩa mới hơn với công nghệ mới hơn không được xếp hạng tốt hơn so với các đĩa cũ, đơn giản là vì mức tăng công nghệ tốt hơn được bù đắp bởi sự mất mát do mật độ cao hơn.


"URE và làm mất dữ liệu của bạn" afaik (và tôi có thể sai), URE chỉ có nghĩa là một số dữ liệu bị mất, không phải tất cả dữ liệu - và bạn có thể thử xây dựng lại sau khi nhấn URE. Điều đó nói rằng, đột kích 10 hoặc zfs là một nơi mà vào những ngày này.
Sirex

1
"Các lĩnh vực [trên các đĩa mới hơn] đáng tin cậy bằng một nửa so với [trên cũ], điều đó không có ý nghĩa " Tôi không chắc là mình đồng ý. Khi các vùng từ trở nên nhỏ hơn (mật độ dữ liệu cao hơn trong gói có cùng kích thước), rất hợp lý khi chúng trở nên dễ bị xóa hơn (phát xạ tia gamma cục bộ, sự kiện tia vũ trụ, v.v.). Tính nhạy cảm ngày càng tăng của các ổ đĩa hiện đại này là lý do tại sao không ai trong chúng ta sẽ triển khai các ổ đĩa không được RAID trong bất kỳ điều gì quan trọng, và một lý do tại sao hầu hết chúng ta đã từ bỏ RAID-5.
MadHatter


Vấn đề thực sự ở đây là có quá nhiều mảng RAID đang biến một URE đơn lẻ thành một lỗi toàn mảng. Một URE duy nhất sẽ làm mất một khối RAID duy nhất. Hãy để hệ thống tập tin tìm hiểu xem khối đó có được sử dụng hay không, rất có thể nó không thực sự quan trọng.
MSalters

1
@Meme không, các số hủy bỏ. Hai lần nhiều lĩnh vực cũng có gấp đôi cơ hội cho thất bại, do đó, tỷ lệ lỗi đọc tương đương với độ tin cậy như nhau trên cơ sở mỗi byte. Đó là lý do tại sao nó được sử dụng ở nơi đầu tiên.
hobbs 4/11/2016

Câu trả lời:


12

URE là một lỗi đọc không thể phục hồi. Một cái gì đó đã xảy ra đã khiến cho việc đọc một khu vực bị lỗi mà ổ đĩa không thể sửa chữa. Các thiết bị điện tử ổ đĩa rất tinh vi, chúng sẽ chỉ truyền dữ liệu lên nếu chúng có thể đọc chính xác từ đĩa. Các thiết bị điện tử ổ đĩa sẽ cố gắng nhiều lần để đọc một khu vực xấu trước khi tuyên bố nó bị hỏng.

Điều gì gây ra lỗi đọc - Tôi không phải là một chuyên gia ở đây (vẫy tay xảy ra) nhưng việc lão hóa có thể khiến dung sai sản xuất trở nên có liên quan. Miền từ tính có thể trở nên suy yếu. Tia vũ trụ có thể gây ra thiệt hại, vv Về cơ bản, đó là một thất bại ngẫu nhiên.

Điều này ảnh hưởng đến RAID 5 như thế nào?

Một RAID 5 gồm mức khối kẻ vạch với chẵn lẻ phân tán. Các khối chẵn lẻ được tính bằng cách XOR các bit từ các khối dữ liệu lại với nhau. Về cơ bản, hàm XOR cho biết, nếu tất cả các bit đều giống nhau thì kết quả là 0 nếu không là 1. Khi tính chẵn lẻ, bạn lấy 2 bit đầu tiên và XOR chúng sau đó XOR kết quả với bit tiếp theo, v.v.

1010   data      or    1010 data
1100   data            1100 data
0110   parity          0011 data
                       0101 parity

Bản chất của chức năng XOR là nếu bất kỳ đĩa nào chết và được thay thế, dữ liệu nên có trên nó có thể được xây dựng lại từ các đĩa còn lại.

1010  data       or    1010 data
      damaged               damaged
0101  parity           0011 data
                       0101 parity

Như bạn có thể thấy dữ liệu bị hỏng có thể được xây dựng lại bằng cách XOR dữ liệu còn lại và tính chẵn lẻ.

URE ảnh hưởng đến điều này như thế nào?

Một URE chỉ có ý nghĩa trong quá trình xây dựng lại RAID 5.

Khi bạn xây dựng lại RAID 5, sẽ có một lượng lớn việc đọc. Mỗi khối dữ liệu cần phải được đọc để xây dựng lại dữ liệu trên đĩa mới. Nếu URE xảy ra thì dữ liệu cho khối có liên quan không thể được phục hồi để dữ liệu của bạn không nhất quán. Đối với các đĩa đủ lớn trong R5 đủ lớn, số bit được đọc để tái tạo lại đĩa thay thế vượt quá giá trị URE của ví dụ 1 bit trong 10 ^ 14 đọc.


2
Một đĩa 8TB duy nhất có hơn 6 * 10 ^ 13 bit, do đó, chỉ với ba đĩa như vậy trong RAID-5, URE có nhiều khả năng hơn là không được tạo lại. Ồ, và +1 từ tôi.
MadHatter

3
Khiếu nại (được viết trong câu hỏi và trong một số câu trả lời và nhận xét, cũng như trong các câu hỏi khác, trên thực tế trên internet) rằng sau khi đọc 12TB, lỗi đọc gần như chắc chắn là sai. Đừng tin điều đó? Đừng. Biết nó. Bằng cách đọc 12 (hoặc nhiều hơn) TB từ bất kỳ đĩa nào của bạn và quan sát rằng không có lỗi xảy ra. Hãy làm điều đó và dừng huyền thoại này. Cảm ơn bạn.
David Balažic

1
@IanKemp Không, không. Tôi đã thử nó. Bạn rõ ràng là không. (ngoài ra, đánh giá tốt hơn chỉ di chuyển huyền thoại một chút, không có thay đổi thực sự)
David Balažic

1
@ DavidBalažic Rõ ràng, kích thước mẫu của bạn của một mất hiệu lực toàn bộ lý thuyết xác suất! Tôi đề nghị bạn nộp một bài báo cho Ủy ban Nobel.
Ian Kemp

1
@IanKemp Nếu ai đó tuyên bố rằng tất cả các số chia hết cho 7 và tôi tìm thấy MỘT không phải, thì có, một phát hiện duy nhất có thể làm mất hiệu lực toàn bộ lý thuyết. BTW, vẫn chưa có một người nào xác nhận huyền thoại trong thực tế (bằng thí nghiệm), phải không? Tại sao họ nên, khi niềm tin không chỉ là kiến ​​thức ...
David Balažic

9

Vậy chính xác thì URE là gì?

Đĩa cứng không chỉ đơn giản là lưu trữ dữ liệu mà bạn yêu cầu. Do kích thước miền từ tính ngày càng giảm và thực tế là đĩa cứng lưu trữ dữ liệu theo kiểu tương tự chứ không phải nhị phân (phần sụn đĩa cứng nhận tín hiệu tương tự từ đĩa, được dịch thành tín hiệu nhị phân, và bản dịch này là một phần của nước sốt bí mật của nhà sản xuất), hầu như luôn có một mức độ lỗi nào đó trong một lần đọc, phải được bù lại.

Để đảm bảo dữ liệu có thể được đọc lại, đĩa cứng cũng lưu trữ dữ liệu sửa lỗi chuyển tiếp cùng với dữ liệu bạn yêu cầu lưu trữ.

Trong các hoạt động bình thường, dữ liệu FEC là đủ để sửa các lỗi trong tín hiệu được đọc lại từ đĩa. Phần sụn sau đó có thể xây dựng lại dữ liệu gốc và tất cả đều ổn. Đây là lỗi đọc có thể phục hồi được hiển thị trong SMART dưới dạng thuộc tính tỷ lệ lỗi đọc (thuộc tính SMART 0x01) và / hoặc Phần cứng ECC được khôi phục (thuộc tính SMART 0xc3).

Nếu vì một lý do nào đó, tín hiệu xuống dưới một điểm nhất định, dữ liệu FEC không còn đủ để tái tạo lại dữ liệu gốc. Vào thời điểm đó, theo lý thuyết, phần sụn vẫn có thể phát hiện ra rằng dữ liệu không thể được đọc lại một cách đáng tin cậy, nhưng nó không thể làm gì được về nó. Nếu nhiều lần đọc như vậy không thành công, đĩa phải bằng cách nào đó thông báo cho phần còn lại của máy tính rằng việc đọc không thể được thực hiện thành công. Nó làm như vậy bằng cách báo hiệu một lỗi đọc không thể phục hồi . Điều này cũng làm tăng bộ đếm Lỗi không thể sửa lỗi được báo cáo (thuộc tính SMART 0xbb).

Một lỗi đọc không thể phục hồi, hoặc URE, chỉ đơn giản là một báo cáo vì bất kỳ lý do gì, dữ liệu tải trọng cộng với dữ liệu FEC là không đủ để xây dựng lại dữ liệu được lưu trữ ban đầu.

Hãy nhớ rằng tỷ lệ URE là thống kê . Bạn sẽ không gặp phải bất kỳ đĩa cứng nào trong đó bạn có thể đọc chính xác 10 ^ 14 (hoặc 10 ^ 15) - 1 bit thành công và sau đó bit tiếp theo thất bại. Thay vào đó, đó là một tuyên bố của nhà sản xuất rằng trung bình , nếu bạn đọc (giả sử) 10 ^ 14 bit, thì tại một số điểm trong quá trình đó, bạn sẽ gặp một khu vực không thể đọc được.

Ngoài ra, theo dõi một vài từ cuối cùng ở trên, hãy nhớ rằng tỷ lệ URE được đưa ra theo các lĩnh vực trên mỗi bit được đọc . Do cách dữ liệu được lưu trữ trên các đĩa, đĩa không thể cho biết phần nào của khu vực là xấu, vì vậy nếu một khu vực không kiểm tra FEC, thì toàn bộ khu vực được coi là xấu.


OK, vì vậy nó dường như chỉ về phía ngành thất bại. Tôi hoàn toàn có được những điều thống kê, không phải lo lắng. Tôi cũng thấy ở đây rằng độ tin cậy của ngành giảm dần khi mật độ tăng cao hơn, nhưng điều đó vẫn không có ý nghĩa. Các đĩa mới hơn thường có cùng mật độ đĩa, bất kể kích thước vật lý, 4TB sẽ chỉ có ít đĩa hơn so với 6TB. Về cơ bản các lĩnh vực là như nhau, vậy tại sao 8TB không thể đạt được giá trị thống kê cao hơn, có số lượng nhiều gấp đôi số lượng nên mỗi lĩnh vực được đọc một nửa (theo thống kê). Họ có nên thất bại ít hơn không?
Memes

3

ngành chết: cũng hoàn toàn không thể phục hồi, nhưng ở đây tôi không hiểu tại sao đĩa 4TB được đánh giá ở mức 10 ^ 14 cho URE và 8TB cũng được đánh giá ở mức 10 ^ 14 cho URE, điều đó có nghĩa là các ngành trên 8TB (rất có thể là công nghệ mới hơn) đáng tin cậy bằng một nửa so với 4TB, điều đó không có ý nghĩa gì.

Thông số kỹ thuật thường là "trung bình 1 lỗi được phát hiện trong khi đọc n bit", vì vậy kích thước ổ đĩa không thành vấn đề. Sẽ không có vấn đề gì nếu bạn tính toán rủi ro rằng lỗi sẽ xảy ra trên ổ đĩa và khối lượng công việc của bạn, nhưng nhà sản xuất chỉ nói rằng phải mất n bit đọc để tìm lỗi (trung bình, không được bảo đảm).

Ví dụ: Nếu bạn mua ổ 1TB, bạn sẽ phải đọc nó khoảng 12 lần để tìm lỗi, trong khi ổ 8TB có thể gặp phải ở lần đọc thứ hai - nhưng số bit đọc là như nhau cả hai lần, vì vậy chất lượng của các trục từ tính là gần như nhau.

Những gì bạn phải trả khi tăng giá là các yếu tố khác, khả năng nhồi nhét 8TB vào không gian vật lý 1TB, giảm đáng kể mức tiêu thụ năng lượng, ít bị va chạm trong khi di chuyển ổ đĩa, v.v.


0

Tôi nghĩ @Michael Kjorling đã trả lời rõ ràng.

Khi đĩa đọc, đầu phát hiện hướng của miền từ tính, sau đó gửi một số tín hiệu eletronic, đó là tín hiệu tương tự. Chúng tôi giả sử phần sụn sẽ cung cấp 1 khi nhận được điện áp cao hơn 0,5V, nhưng từ trường quá yếu, do đó, đầu gửi tín hiệu chỉ có 0,499V, gặp phải lỗi. Chúng tôi cần FEC để sửa lỗi này.

Dưới đây là một ví dụ: dữ liệu của ngành phải là 0x0F23, chúng tôi mã hóa nó bằng 0 * 1 + F * 2 + 2 * 3 + 3 * 4 = 0x30. bây giờ chúng ta có FEC và viết nó sau khu vực này. Khi chúng tôi đọc, chúng tôi đọc 0x0E23 và FEC 0x30, nó không khớp. Sau khi tính toán, chúng tôi thấy nó phải là 0x0F23. Nhưng nếu chúng tôi có 0x0E13 và 0x30, HOẶC chúng tôi có 0x0E23 và 0x32, chúng tôi không thể tính toán chính xác.

Xếp hạng này là rất thấp, có thể trừ khi nhà máy hdd đọc PB từng dữ liệu EBs có thể nhận được giá trị ổn định. Vì vậy, họ đưa ra giá trị xác suất: khi bạn đọc dữ liệu 10 ^ 14 bit, bạn có thể gặp một lần. Vì đó là giá trị xác suất, có thể bạn đã trang bị sau khi bạn chỉ đọc 1 dữ liệu ngành, có thể bạn gặp phải cho đến khi bạn đọc dữ liệu 50TB. Và giá trị này không có gì với dung lượng đĩa, nó chỉ là mối quan tâm cơ hội với kích thước dữ liệu bạn đọc. Nếu bạn đọc một đĩa 4TB chứa đầy dữ liệu 6 lần, cơ hội này sẽ bằng với việc đọc một đĩa 6TB 4 lần hoặc đọc một đĩa 8TB 3 lần.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.