Tìm kiếm một trải nghiệm thực tế về lỗi ổ đĩa RAID 5 2? [đóng cửa]


15

Tôi tự hỏi liệu có ai có bất kỳ kinh nghiệm cá nhân nào về lỗi ổ đĩa RAID 5 2 với các ổ đĩa lớn không?

Theo tôi hiểu, lý thuyết là với các ổ đĩa lớn 1-2TB, nếu một ổ đĩa bị lỗi trong bộ đột kích, nó cần phải xây dựng lại mọi thứ, do đó rất khó để đánh bại tất cả các ổ đĩa khác, và khả năng thất bại khác sẽ tăng lên, đặc biệt là nếu các ổ đĩa là từ cùng một lô sản xuất. Và nếu bạn mất một ổ đĩa khác, bạn sẽ mất tất cả dữ liệu.

Điều này thường được giải thích sau tuyên bố "RAID không sao lưu" mà tôi đồng ý.

Lý thuyết về điều này có ý nghĩa, và tôi hiểu nó, nhưng nó có thực sự xảy ra không?


Đáng buồn thay, chúng tôi vừa có một câu hỏi mới với kinh nghiệm trực tiếp về điều này. :( superuser.com/questions/516844/ hy
Hennes

Câu trả lời:


15

Vâng, tôi đã có nó xảy ra với tôi. Một bộ gồm 4 ổ WD 500 (cấp độ người tiêu dùng) đã bị hỏng trong khoảng một tuần. Tôi đã chậm thay thế cái đầu tiên và không lấy mảng ngoại tuyến và mất tất cả dữ liệu của mình khi cái thứ hai thất bại. Tôi đã sử dụng lại hai cái tốt còn lại, và một trong số chúng đã thất bại trong tháng tới. Tất cả đều được làm mát và chăm sóc đúng cách. Tôi chỉ có thể nói rằng bây giờ tôi tin rằng lời nói "đợt xấu".

Trong một sự cố riêng biệt, tôi đã có 3 ổ đĩa riêng biệt khác nhau và các kiểu máy bị hỏng trong vòng một tháng, mặc dù tôi khá chắc chắn rằng lý do chúng thất bại là do thông gió không đúng cách. Đừng nấu ổ đĩa của bạn!


3
Như một hệ quả tất yếu, có một phụ tùng ngồi xung quanh khi một ổ đĩa bị hỏng. Ngoài ra, hãy cẩn thận với tham nhũng thầm lặng ... thật dễ dàng để mất dữ liệu trên một ổ đĩa chỉ giả vờ hoạt động.
Paul McMillan

Đây là một lý do khác mà bạn không nên cài đặt các ổ đĩa cùng một lô trong một mảng RAID - chúng có thời gian thất bại tương quan (như, như tỷ lệ mặc định của chứng khoán thế chấp dưới chuẩn được thế chấp).
Andrew Mao

4

Điều này thực sự đã xảy ra với tôi, tuy nhiên, nó không thực sự là cách phổ biến nhất mà một ổ đĩa sẽ thất bại. Tôi đã có 4 ổ đĩa sata ngoài 500gb trong cuộc đột kích 5. Chúng được gắn vào một máy chủ gắn trên giá cũ của IBM. Toàn bộ thiết lập đã được giấu dưới cầu thang và một ngày, một con chuột hoặc một con thỏ, nhưng một cái gì đó được nhai qua một số dây cáp điện và 2 ổ đĩa đã bị rút ngắn. Tất cả các ổ đĩa đều được đặt trong các thùng bên ngoài giá rẻ nên tôi đoán tôi không nên quá ngạc nhiên.


3

Bạn đang hỏi nếu bạn có thể mất 2 ổ đĩa trở lại? Chắc chắn, bất cứ điều gì cũng có thể xảy ra. Raid 5 cho phép tăng khả năng và hiệu suất tuyệt vời để truy cập dữ liệu, nhưng đột kích 5 không sao lưu bất cứ điều gì. Nó chỉ đơn giản là giúp ngăn chặn việc sử dụng dữ liệu của bạn do mất phần cứng ổ đĩa đơn. Nó không phải là một bản sao của dữ liệu của bạn. Bạn không thể khôi phục bản sao cũ, bản sửa đổi cũ hoặc đơn giản là bản sao của tác phẩm hiện tại của bạn. Ngoài ra, không bảo vệ chống tham nhũng dữ liệu. Có nhiều điều có thể đi sai hơn là chỉ mất một ổ đĩa. Virus có thể làm hỏng tất cả dữ liệu của bạn, em gái thích xem thùng rác trên máy tính để bàn của bạn trở nên đầy và trống rỗng khi cô ấy ném các tệp trong đó, người bạn ngu ngốc làm rơi soda vào máy của bạn, v.v.

Ngoài ra, hãy nhớ rằng, bạn có thể mất bộ điều khiển đột kích ổ cứng. Và bạn không thể di chuyển mảng sang bộ điều khiển ngẫu nhiên khác. Bạn Normaly phải sử dụng chính xác cùng một và vẫn còn, một cái gì đó có thể đi sai. Một số bộ điều khiển đột kích lưu trữ thông tin trên tàu và khác gửi thông tin cấu hình đến mảng đính kèm. Đó là một canh bạc khi tình huống này phát sinh.

Câu hỏi tương tự tại SF: /server/2888/why-is-ston-not-a-backup

Cần thêm lý do?

EDIT: Ý tưởng của bạn là chính xác và có thể xảy ra với bất cứ ai. Tôi đã không thấy nhiều hơn một ổ đĩa thất bại, nhưng tôi đã thấy một số chết thực sự gần nhau. Không ai trong số họ ở trong cửa sổ xây dựng lại, nhưng đó là một rủi ro. Nhưng, bạn có một bản sao lưu trong trường hợp điều gì đó xảy ra phải không? haha Một số người đôi khi học cách khó khăn này. Raid 6 đưa nó lên cấp độ tiếp theo với tính chẵn lẻ kép và có thể mất tới 2 ổ đĩa. Với bất kỳ thiết lập đột kích nào, khả năng thất bại tăng lên với kích thước (# ổ đĩa) và độ phức tạp của mảng. Nhiều ổ đĩa hơn = nhiều điểm thất bại có thể


xin lỗi, tôi hiểu tất cả những điều đó, chỉ hỏi nếu nó xảy ra với bất cứ ai và kịch bản là gì?
Brian

3

Bạn đã đúng, trong kịch bản RAID-5 nếu bạn mất một đĩa và sau đó xây dựng lại, hệ thống phải đọc thành công mọi cung của tất cả các ổ còn sót lại trong bộ RAID. NetApp tuyên bố rằng đối với một số tình huống (họ có thể thực hiện bộ RAID lên tới 28 ổ đĩa một số loại), tỷ lệ bạn gặp phải lỗi thứ hai có thể lên tới 1/10. Do đó, họ thực hiện "Tính tương đương kép" mà tôi tin là có liên quan đến RAID-6.

Rõ ràng là bạn càng có nhiều ổ đĩa trong một bộ RAID và chúng càng lớn thì bạn càng có khả năng gặp phải vấn đề. Đối với một bộ RAID nhỏ (3-5 đĩa), tỷ lệ cược có thể không thay đổi quá nhiều so với sử dụng RAID-5.

Nhưng tôi luôn làm Raid-DP trên NetApps khi có thể.


+1 Tôi chưa bao giờ nghĩ về thực tế "phải đọc thành công mọi lĩnh vực của tất cả các ổ đĩa còn sống".
AaronLS

2

Không có kinh nghiệm cá nhân , nhưng tôi đã lắng nghe tiếng la hét của những người đã xảy ra với họ. Bất kỳ hệ thống lưu trữ nào - có thể là một ổ đĩa duy nhất, khóa USB, băng từ, cài đặt RAID khổng lồ hoặc Amazon S3 - cuối cùng sẽ thất bại theo bất kỳ cách nào gây bất tiện nhất cho bạn. Thất bại thứ hai trong khi xây dựng lại bộ RAID 5 chỉ là một trong những cách điều này có thể xảy ra.

Bên cạnh đó, hỗ trợ cho RAID ba chẵn lẻ đã được tích hợp vào OpenSolaris vài ngày trước - vì vậy, ít nhất một nhà cung cấp cho rằng việc cho phép thêm hai lần thất bại trong quá trình xây dựng lại RAID chẵn lẻ là đáng để nỗ lực kỹ thuật.


1

Điều này thực sự xảy ra thực sự. Đây là lý do tại sao các giải pháp lưu trữ NetApp có triển khai RAID 6. Đây chỉ là trong trường hợp bạn mất ổ đĩa thứ hai trong quá trình xây dựng lại.

Bạn có thể tính toán khả năng thất bại bằng cách sử dụng các công thức tiêu chuẩn được liệt kê trên văn bản liên kết trang sau Khi bạn mở rộng số lượng ổ dữ liệu lớn hơn và lớn hơn, khả năng xảy ra lỗi như vậy sẽ tăng lên. Nếu bạn có đủ đĩa, bạn có thể đẩy số này vào vùng lo lắng nếu bạn đang sử dụng RAID 5 với số lượng dữ liệu khổng lồ.

Tôi có thể nói với bạn từ kinh nghiệm cá nhân rằng bạn chắc chắn có thể có hai lỗi ổ đĩa trong cùng một mảng trong cùng một khung thời gian quan trọng. Raid 6 đã cứu tôi khỏi phải khôi phục từ bản sao lưu.

Hi vọng điêu nay co ich


1

Đây là một kịch bản: Một ổ đĩa bị lỗi trên mảng RAID5 của bạn, nhưng phụ tùng của bạn đã ở xung quanh hoặc thứ tự cho ổ cứng mới cuối cùng đã xuất hiện. Bạn (hoặc một số minion từ xa có lẽ) đi với ổ đĩa mới trong tay để thay thế một lỗi. Do ghi nhãn xấu, mệt mỏi hoặc chỉ đơn giản là ngu ngốc, một trong những ổ đĩa tốt còn lại bị đẩy ra thay vì lỗi ... và đó là thất bại thứ hai của bạn.


1

Tôi đã thấy điều này nhiều lần khi tôi làm trong ngành phục hồi dữ liệu. Và vâng, họ thường thất bại cùng một lúc, tuy nhiên tôi không tin rằng điều này có liên quan khi chúng được xây dựng nhất thiết, vì tôi cũng đã thấy điều đó xảy ra với các ổ đĩa không khớp. Hầu hết các loại sự cố này xảy ra ngay sau khi một cơn bão sấm sét, tăng điện hoặc mất điện.

Thông thường, sự đột biến làm hỏng các ổ đĩa hoặc bộ điều khiển RAID và trong vài ngày chúng bắt đầu bị lỗi. Tôi thực sự đang làm việc ngay bây giờ để khôi phục một mảng có hai ổ đĩa bị lỗi đồng thời sau khi mất điện. (có vẻ vô vọng ngay bây giờ)

Một mẹo nhỏ: Bảo vệ sốc điện không thực sự bảo vệ thiết bị của bạn. Luôn kết nối cuộc đột kích 5 của bạn với một UPS tốt. Tôi chưa bao giờ thấy điều này xảy ra khi mảng nằm trên một UPS.


1

Vô tình kéo một ổ đĩa tốt thứ hai ra khỏi một bộ chẵn lẻ không nên phá hủy mảng với việc triển khai RAID tốt. Tôi biết rằng ZFS RAID-Z sẽ đóng băng bất kỳ I / O nào trên mảng cho đến khi bạn trực tuyến lại.


0

Một kịch bản khác: Một minion từ xa được yêu cầu lấy băng dự phòng ra khỏi tapedrive. Cô đi đến giá đỡ và không rút băng ra khỏi tapedrive ... nhưng 2 (hai) ổ cứng ra khỏi ổ đĩa cùng một lúc và voila: 2 ổ đĩa bị lỗi.

Bạn nghĩ rằng điều này là rất xa? Vâng, tôi đang ở một khách hàng, người đã làm điều đó và hiện đang xem xét xây dựng lại máy chủ.

Thật tốt, cô ấy đã không đốt cuộn băng thực sự trong tapedrive hoặc không có gì ;-)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.