Điều gì được tính là một cuộc đột kích 5 'lớn'?


11

Một vấn đề gần đây với NAS Buffalo TeraStation tại văn phòng của tôi đã khiến tôi điều tra Raid 5.

Tôi đã tìm thấy một vài bài viết khác nhau nói về sự không phù hợp của việc sử dụng đột kích 5 trong các mảng lớn hoặc với các đĩa lớn

Dưới đây là một bài viết ví dụ nói về các vấn đề với việc xây dựng lại một mảng với các ổ đĩa tiêu dùng lớn.

Tôi đang cố gắng tìm ra cái gì được coi là 'lớn'?

NAS chúng tôi có ở đây là thiết lập Raid 5 ổ đĩa, mỗi ổ là 1 TB. Một ổ đĩa bị lỗi và đã được thay thế, mảng hiện đang được xây dựng lại.

Có phải thiết lập này là lớn, về mặt có thể sẽ có vấn đề trong quá trình xây dựng lại?

Làm thế nào đáng tin cậy là thiết lập này để sử dụng hàng ngày?


2
Với tải hệ thống thông thường của bạn, bộ điều khiển dự kiến ​​sẽ xây dựng lại trong bao lâu? MTBF của ổ cứng là gì? Một bạn có hai số đó, bạn biết khả năng xảy ra lỗi thứ hai - và thảm khốc - trong quá trình xây dựng lại RAID. Hãy nhớ rằng các ổ cứng bị căng thẳng nhất trong quá trình xây dựng lại, vì vậy kết quả ở trên sẽ là sự đánh giá thấp về khả năng thất bại kép.
MadHatter

3
Ở một bên, bạn biết rằng RAID không phải là bản sao lưu, phải không?
cjc

5
@cjc, bạn có thêm viên ngọc khôn ngoan đó vào mỗi câu hỏi RAID duy nhất trên SF không, hoặc có điều gì về câu hỏi này khiến bạn nghĩ OP nghĩ RAID là bản sao lưu không?
BlueCompute

Vâng, tôi biết điều đó. Tất cả đều được sao lưu, tôi thực sự muốn rắc rối khi phải khôi phục lại tất cả vì mảng đột kích không tự sửa chữa đúng cách.
Rob

Câu trả lời:


18

Thiết kế độ tin cậy của một mảng đĩa:

  1. Tìm tỷ lệ URE của ổ đĩa của bạn (các nhà sản xuất không muốn nói về các ổ đĩa của họ bị lỗi, vì vậy bạn có thể phải đào để tìm ra ổ đĩa này. Nó phải là 1/10 ^ X trong đó X thường ở khoảng 12-18).
  2. Quyết định đâu là tỷ lệ rủi ro chấp nhận được cho nhu cầu lưu trữ của bạn. Thông thường, đây là <0,5% khả năng thất bại, nhưng có thể là vài phần trăm trong bộ lưu trữ "đầu" và có thể <0,1 cho dữ liệu quan trọng.
  3. 1 - ( 1 - [Drive Size] x [URE Rate]) ^ [Data Drives‡] = [Risk]
    Đối với các mảng có nhiều hơn một đĩa chẵn lẻ hoặc các gương có nhiều hơn một cặp đĩa trong gương, hãy thay đổi 1sau Ổ đĩa trong Mảng thành số lượng đĩa có chẵn lẻ / gương.

Vì vậy, tôi đã có một bộ bốn ổ WD Green 1TB trong một mảng. Họ có tỷ lệ URE là 1/10 ^ 14. Và tôi sử dụng chúng trong lưu trữ đầu. 1 - (1 - 1TB x 1/10^14byte) ^ 3=> 3.3%nguy cơ thất bại trong việc xây dựng lại mảng sau khi một ổ đĩa bị chết. Đây là những thứ tuyệt vời để lưu trữ rác của tôi, nhưng tôi không đưa dữ liệu quan trọng vào đó.

Xác định thất bại chấp nhận được là một quá trình lâu dài và phức tạp. Nó có thể được tóm tắt là Budget = Risk * Cost. Vì vậy, nếu một thất bại sẽ có giá 100 đô la và có 10% cơ hội xảy ra thì bạn nên có ngân sách 10 đô la để ngăn chặn điều đó. Điều này hoàn toàn đơn giản hóa nhiệm vụ xác định rủi ro, chi phí cho các thất bại khác nhau và bản chất của các kỹ thuật phòng ngừa tiềm năng - nhưng bạn có ý tưởng. [Data Drives] = [Total Drives] - [Parity Drives]. Một nhân bản hai đĩa (RAID1) và RAID5 có 1 ổ đĩa chẵn lẻ. Một nhân bản ba đĩa (RAID1) và RAID6 có 2 ổ đĩa chẵn lẻ. Có thể có nhiều ổ đĩa chẵn lẻ hơn với RAID1 và / hoặc các lược đồ tùy chỉnh, nhưng không điển hình.


Phương trình thống kê này đi kèm với nó tuy nhiên:

  • Tỷ lệ URE đó là tỷ lệ được quảng cáo và thường tốt hơn trong hầu hết các ổ đĩa ra khỏi dây chuyền lắp ráp. Bạn có thể gặp may mắn và mua một ổ đĩa có đơn đặt hàng lớn hơn quảng cáo. Tương tự như vậy, bạn có thể có được một ổ đĩa chết vì trẻ sơ sinh.
  • Một số dây chuyền sản xuất có hoạt động kém (trong đó nhiều đĩa chạy cùng lúc không thành công), do đó, việc lấy đĩa từ các lô sản xuất khác nhau sẽ giúp phân phối khả năng thất bại đồng thời.
  • Các đĩa cũ có nhiều khả năng chết dưới áp lực của việc xây dựng lại.
  • Các yếu tố môi trường phải trả phí:
    • Các đĩa thường chạy bằng nhiệt thường dễ bị chết hơn (ví dụ: bật / tắt nguồn thường xuyên).
    • Rung có thể gây ra tất cả các loại sự cố - xem video trên YouTube về CNTT hét vào một mảng đĩa .
  • "Có ba loại dối trá: dối trá, dối trá và thống kê" - Benjamin Disraeli

Ổ đĩa tôi lấy / ra / của thiết bị là ổ Samsung HD103SI 1TB. Tôi tin rằng ba ổ đĩa còn lại là như nhau. Ổ đĩa thay thế là của một nhà sản xuất khác, tôi không có chi tiết để xử lý.
Rob

Có vẻ như tỷ lệ cho ổ đĩa này là 1/10 ^ 15 theo cách này: - comx-computers.co.za/HD103SI-specifying-28474.htm
Rob

1
Tôi chỉ sửa các phương trình, ví dụ đã đúng, bây giờ cả hai đều như vậy. Mảng của bạn sẽ là 1-(1-1099511627776*0.000000000000001)^3=> 0,00329. Bạn có một giá đỡ ở bên ngoài ^3nơi cần đặt ở bên trong; và nên có thêm một số 0 trong 1/10 ^ 15 điều đó.
Chris S

2
Ổ đĩa 1TB sẽ là 1000000000000 byte để nó hoạt động ít hơn 3% | 0,3% tùy theo Tỷ lệ URE của bạn.
dùng9517

1
@IanRingrose Điều này có giá trị thống kê. Tôi đã giải quyết mối quan tâm cụ thể của bạn. Bạn có bất cứ điều gì liên quan để thêm vào bên cạnh những gì đã được nêu?
Chris S

9

Lý do bài viết tồn tại là để thu hút sự chú ý đến Tỷ lệ lỗi bit không thể phục hồi trên ổ cứng. Cụ thể, đĩa PC PC tại nhà giá rẻ của bạn. Họ thường có thông số kỹ thuật của nhà máy là 1/10 ^ 14. Đây là khoảng 12,5TB dữ liệu, nếu bạn đang thực hiện RAID-5 với đĩa 2TB ... bạn sẽ truy cập khá nhanh.

Điều này có nghĩa là bạn nên:

  • sử dụng các nhóm RAID nhỏ hơn và chấp nhận không gian lãng phí cao hơn.
  • Sử dụng RAID-6 và chấp nhận hình phạt ghi bổ sung. (Cao hơn 50% so với RAID5)
  • Mua các đĩa đắt tiền hơn - 'lớp máy chủ' có thông số UBER là 1/10 ^ 16, có nghĩa đây là điểm tranh luận. (1.2PB tốt hơn 12,5TB)

Tôi thường đề nghị rằng RAID-6 là cách chuyển tiếp nói chung, nhưng nó sẽ khiến bạn mất hiệu suất.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.