Thiết lập đĩa RAID 4 có thể bị sập nếu chỉ có 1 đĩa cứng bị lỗi không? [đóng cửa]


9

Tôi là một nhà phát triển web. Tôi chưa có nhiều kinh nghiệm về phần cứng. Vì lý do này, tôi sử dụng các máy chủ được quản lý.

Sáng nay, một trong những ổ đĩa trong thiết lập của chúng tôi đã thất bại. Tuy nhiên, các trang web đầy đủ đã đi xuống. Tôi đã hỏi máy chủ web của mình chuyện gì đã xảy ra và anh ấy trả lời rằng đĩa cứng bị lỗi theo cách mà bộ điều khiển RAID không thể hoạt động bình thường. Mảng được thiết lập là RAID 4.

Các bạn đã bao giờ nhìn thấy điều đó trước đây? Có thể không?

Cảm ơn vì sự giúp đỡ của những người này. Tôi cần phải biết nếu máy chủ web của tôi là trung thực với tôi.


Nếu có nhiều đĩa trong một mảng chết thì RAID sẽ bị lỗi (mặc dù điều này phụ thuộc vào thiết lập RAID).
Rhys Evans

Câu chuyện ngắn là, nhà cung cấp của bạn là một ****** và hoạt động ở phía giá rẻ. Điều đó có thể được chấp nhận hoàn toàn miễn là bạn với tư cách là một khách hàng đã được cảnh báo rằng cơ sở hạ tầng của anh ta không có khả năng chịu lỗi làm hỏng các ổ đĩa.
Luke404

Vui lòng cập nhật câu hỏi với loại đột kích (tức là đột kích 0,1,4,5,6, v.v.).
Trevor Boyd Smith

Câu trả lời:


22

Nhiều khả năng hơn là nhà cung cấp của bạn không sử dụng Ổ đĩa cứng không được sử dụng trong RAID. Ổ đĩa SATA tiêu dùng thông thường rơi vào loại này.

Vấn đề có thể xảy ra là ổ đĩa bắt đầu gặp lỗi đọc không chính xác (URE). Khi điều này xảy ra trong một ổ đĩa tiêu dùng, ổ đĩa nằm ở đó và thử lại thao tác đọc (thường trong 30-60 giây) cho đến khi nó bỏ cuộc. RAID sẽ đợi ổ đĩa báo lỗi (30-60) giây. Vì vậy, một yêu cầu đơn giản cho một vài lĩnh vực có thể dễ dàng khiến máy chủ ngừng hoạt động trong khi ổ đĩa không thành công trong các hoạt động đọc thử lại.

Các ổ đĩa dành cho Mảng RAID có Phục hồi lỗi giới hạn thời gian (đối với ổ đĩa SATA). TLER báo cáo các lỗi trở lại bộ điều khiển một cách nhanh chóng, để bộ điều khiển có thể phản ứng thông minh với các lỗi đó (chủ yếu là thông minh; hy vọng). SCSI (SAS cũng vậy) hoạt động hơi khác. Bộ lệnh SCSI cho phép bộ điều khiển chỉ định các giới hạn nỗ lực phục hồi khác nhau trên các ổ đĩa (MODE CHỌN: RW ERR RECOVERY). Bộ điều khiển RAID sẽ nhanh chóng thiết lập các ổ đĩa bị hỏng, bộ điều khiển sau đó có thể kiểm tra xem ổ đĩa có cho rằng nó hoạt động đúng với lệnh TUR không, ổ đĩa không ra khỏi mảng nếu có điều kiện kiểm tra.


Lời giải thích hay.
sbrattla

11

Vâng, điều này là có thể, ngay cả trong các tình huống mà bạn sẽ nghĩ rằng mảng nên sống sót sau thất bại.

Một số khả năng tại sao một mảng thất bại:

  • Nhiều ổ đĩa bị lỗi hơn mức có thể được duy trì bởi chế độ RAID. Ví dụ:
    • RAID 0 (phân loại) không thể tồn tại bất kỳ lỗi ổ đĩa.
    • RAID 1 có thể tồn tại thất bại của tất cả trừ 1 ổ đĩa.
    • RAID 4/5 có thể tồn tại 1 lỗi ổ đĩa.
    • RAID 6 có thể tồn tại 2 lỗi ổ đĩa.
    • RAID 10 có thể sống sót sau sự cố lên tới 50% ổ đĩa, tùy thuộc vào ổ đĩa nào bị lỗi.
  • Một lỗi trong phần mềm RAID hoặc phần sụn điều khiển.
  • Lỗi người dùng.
    • Có người kéo quá nhiều ổ.
    • Ai đó đã kéo một ổ đĩa và không bao giờ thay thế nó, và một ổ đĩa khác sau đó đã thất bại.
    • Mảng không được theo dõi, cho phép nhiều ổ đĩa bị lỗi hơn mức có thể sống sót.
  • Bộ điều khiển giá rẻ với ổ đĩa tiêu dùng thường được biết là thất bại ngay cả trong các tình huống có thể sống sót.
    • Một ổ đĩa cấp độ người tiêu dùng sẽ cố gắng gần như vô thời hạn để đọc một khu vực xấu cho đến khi nó được đọc tốt. Một bộ điều khiển giá rẻ sẽ chờ gần như vô thời hạn để một ổ đĩa như vậy trả về kết quả. Sự chờ đợi có thể lâu đến mức hệ điều hành bỏ cuộc. Sau đó, khi khởi động lại, các ổ đĩa không đáp ứng đủ nhanh với bộ điều khiển và mảng được coi là thất bại.
    • Mặt khác, một ổ đĩa cấp doanh nghiệp sẽ từ bỏ nhanh chóng, cho phép bộ điều khiển kéo dữ liệu từ một ổ đĩa khác. Ngoài ra, một bộ điều khiển tốt sẽ đánh dấu một ổ đĩa mất quá nhiều thời gian để phản hồi là không thành công và tiếp tục.

1
RAID 1 sẽ tồn tại cái chết của tất cả trừ một trong các ổ đĩa trong mảng. Cấp, hầu hết mọi người có thể chạy các thiết lập RAID 1 hai ổ đĩa, điều đó có nghĩa là nó chỉ có thể sống sót sau một ổ đĩa, nhưng đó không phải là bản gốc của RAID 1.
CVn

Điều thú vị là nếu 1 đĩa trong RAID 10 không thành công, bạn nên phá vỡ một đĩa khác vì nó sẽ không tồn tại nếu chỉ có một đĩa bị hỏng :-) Tôi nghĩ bạn nên chỉnh sửa bài đăng của mình.
FLY

@ MichaelKjorling điểm tốt. Tôi đã chỉnh sửa bài viết của mình.
longneck

@FLY bạn nói đúng, tôi đã nhấn mạnh vào điểm đó. chỉnh sửa.
longneck

RAID4 phải là RAID3. RAID3 là dải byte với tính chẵn lẻ; RAID4 là một triển khai ECC cần một số lượng lớn ổ đĩa mà AFAIK chưa bao giờ được thực hiện.
Dan đang loay hoay bởi Firelight

8

Nếu đó là một triển khai RAID 0 thì chắc chắn khi một ổ đĩa bị lỗi, bạn sẽ mất mảng và tất cả dữ liệu với nó.


Đó là triển khai RAID 4
Steve Coleue

11
hahaha - bạn gần như đã có tôi ở đó, nó thực sự là gì?
Chopper3

3
@ Chopper3 NetApp sử dụng RAID4. Vì vậy, nó không hoàn toàn chưa từng nghe thấy, mặc dù nó cũng khiến tôi cười thầm. Có lẽ đó là cách nói của chủ nhà rằng họ có NetApp Filer hoặc thứ gì đó.
HoplessN00b

1
@SteveRodrigue Bạn có chắc là RAID 4 không?
MDMarra

1
Nếu nó thực sự là RAID4 và chỉ có 1 ổ đĩa bị lỗi, thì ít nhất có thể cài đặt một ổ đĩa mới và xây dựng lại mảng, theo nguyên tắc ít nhất là. Có lẽ máy chủ web có nghĩa là một trong những ổ đĩa còn lại đã thất bại trong khi anh ta đang cố gắng làm điều này?
dùng3490

2

Tôi đã thấy các lỗi phần mềm loại bỏ toàn bộ RAID khi một đĩa bị hỏng hoặc khi nó bắt đầu báo cáo lỗi sắp xảy ra. Xin lỗi, tôi không có gì cụ thể để chỉ cho bạn, nhưng vâng, nó có thể xảy ra. Tất nhiên, đây không phải là một phần của thông số RAID, đây chắc chắn là một lỗi.


1

Vâng nó có thể. Nó không phải để xảy ra, nhưng nó chắc chắn có thể. Nhập URE (Lỗi đọc không thể phục hồi) và lỗi bộ điều khiển và lỗi phần sụn và tương tự.

Nếu không có thêm thông tin (mà máy chủ của bạn có thể sẽ không cung cấp cho bạn), bạn không thể nói chắc chắn bằng cách này hay cách khác, nhưng bất kỳ ai làm việc với nhiều mảng RAID đều có trải nghiệm khi toàn bộ mảng bị mất hoặc bị hỏng khi nó không nên có.

(Và, nhân tiện, RAID4 không phải là cấp RAID được sử dụng rất phổ biến, nhưng sẽ chịu được sự mất mát của bất kỳ ổ đĩa nào . Tuy nhiên, điều đó không có nghĩa là nó sẽ luôn luôn như vậy.)


1

Tôi đã có nhiều lỗi ổ cứng trong đó không phải là cơ học thất bại, mà là các thiết bị điện tử tạo nên giao diện truyền thông. Do kích thước nhỏ của chúng, nhiều linh kiện điện tử rất nhạy cảm với những bất thường nhỏ về điện (điều này có thể xảy ra khi các động cơ A / C lớn gần đó được bật / tắt, v.v. và nguồn điện hơi kém một chút).

Khi các bộ biến đổi hoặc tụ điện bên trong ổ đĩa (bộ đệm lưu trữ năng lượng) đốt cháy các tín hiệu điện được tạo ra ở các đầu nối bên ngoài của ổ cứng có thể và sẽ di chuyển ra khỏi đặc điểm kỹ thuật. Do ổ đĩa được kết nối với bộ điều khiển thông qua dây đồng và thường trong các máy chủ, nhiều ổ đĩa chia sẻ kết nối cáp để dễ dàng cài đặt và giảm sự lộn xộn, điều này có thể dễ dàng phá vỡ hoặc thậm chí phá hủy vĩnh viễn bất kỳ số lượng các thành phần lân cận.

Điều này có rất ít liên quan đến giá cả bằng cách này. Đúng là các bộ điều khiển và ổ đĩa đắt tiền CÓ THỂ sử dụng các bộ phận có khả năng chịu đựng tốt hơn với các điều kiện bất thường hoặc có khả năng che chắn tốt hơn và với các thành phần ngân sách, bạn có nhiều khả năng có được các bộ phận dưới tiêu chuẩn. Nhưng tôi đã thường xuyên tìm thấy các tụ điện giống hệt nhau trên một ổ đĩa 50 đô la và một ổ đĩa 500 đô la. Và nếu một ổ cứng bị lỗi trực tiếp định tuyến 12 Volts từ nguồn cung cấp đến đầu nối SATA vì bị thiếu, bộ điều khiển RAID của bạn sẽ bị hỏng, bất kể thẻ giá có bao nhiêu con số.

Đó không phải là điều thường xảy ra, nhưng chắc chắn đó không phải là chưa từng thấy trong trải nghiệm của tôi.


"Thường trong các máy chủ, nhiều ổ đĩa có chung kết nối cáp" Không phải trong môi trường SAS hoặc SATA hiện đại. Về mặt thiên văn, không chắc rằng kịch bản của bạn là những gì đã xảy ra ở đây; Tôi không nghĩ rằng tôi đã từng nghe nói về thiết bị điện tử của ổ đĩa bị chết và mang theo các thành phần khác với nó. Mặc dù 12 v chắc chắn sẽ chiên bộ điều khiển SATA hoặc SAS, các thành phần logic rất hiếm khi được kết nối với 12 v theo bất kỳ cách nào, vì việc giảm điện áp xuống từ 12 đến 3,3 hoặc ít hơn rất phức tạp so với các nguồn 5v hoặc 3,3v. Tôi tò mò nơi bạn có thể có đầu của loại điều này xảy ra; nếu bạn sẵn sàng chia sẻ?
Chris S

1

Vâng, tôi đoán toàn bộ cuộc đột kích có thể thất bại sau một lần thất bại. Ổ đĩa bị lỗi đầu tiên sẽ được điều khiển ngoại tuyến và cuộc đột kích vẫn hoạt động tốt. Nhưng khi ổ đĩa bị lỗi được thay thế, bộ điều khiển bắt đầu xây dựng lại cuộc đột kích. Nếu có một vấn đề đọc không được phát hiện tiềm ẩn trên một trong các ổ đĩa còn lại, việc xây dựng lại ổ đĩa bị lỗi có thể khiến nhiều ổ đĩa bị gián đoạn (khi phát hiện sự cố đọc trong khi xây dựng lại cuộc đột kích) khiến toàn bộ cuộc đột kích Thất bại.


Đây là lý do tại sao các mảng RAID cần được kiểm tra thường xuyên, để phát hiện ra các vấn đề đọc hoặc ghi.
Chris S
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.