Phần mềm Linux Raid 10 bị treo sau 1 ổ đĩa không thành công, mdadm sẽ không cho phép tôi gỡ bỏ thiết bị bị lỗi


8

Tôi có một phần mềm Linux đột kích 10 thiết lập bao gồm 5 RAID 1 (Hai ổ cho mỗi thiết lập được nhân đôi) và RAID 0 trên tất cả 5 cặp RAID 1. Để kiểm tra rằng không có ổ đĩa nào bị hỏng nhanh khi tải, tôi đã sử dụng các ổ khóa trên RAID 0 với chế độ đọc / ghi phá hủy.

Lệnh Badblocks: badblocks -b 4096 -c 98304 -p 0 -w -s / dev / md13

Một trong những thiết bị thất bại và thay vào đó là chương trình badblocks vui vẻ di chuyển trên nó. Nếu tôi chạy một lệnh đồng bộ thì nó cũng bị treo. Đầu tiên tôi cho rằng đây không phải là hành vi tiêu chuẩn cho thiết bị RAID 1. Nếu một trong các ổ đĩa bị lỗi, nó vẫn có thể ghi vào thiết bị ảo mà hai ổ đĩa tạo nên mà không gặp vấn đề gì.

Vì vậy, tôi đã tiến hành buộc thất bại ổ đĩa và cố gắng loại bỏ nó. Tôi có thể đặt ổ đĩa bị lỗi mà không gặp vấn đề gì (Tuy nhiên các thao tác IO vẫn bị treo). Tôi không thể loại bỏ hoàn toàn thiết bị khỏi cuộc đột kích mà nó nói rằng nó đang bận. Giả định của tôi là nếu tôi có thể loại bỏ hoàn toàn cuộc đột kích thì IO sẽ tiếp tục nhưng đó chỉ là một giả định và tôi nghĩ rằng tôi đang đối phó với một loại lỗi.

Điều gì đang xảy ra ở đây chính xác? Tôi đang ở một vị trí không thể phục hồi do một lỗi?

Hệ thống đang chạy kernel 2.6.18, vì vậy nó không hoàn toàn mới nhưng tôi nghĩ rằng việc đột kích phần mềm đã xảy ra rất lâu vì những vấn đề như thế này sẽ không xảy ra.

Bất kỳ cái nhìn sâu sắc nào đều được đánh giá cao.

mdadm - chi tiết / dev / md13

/ dev / md13:

    Version : 00.90.03   Creation Time : Thu Jan 21 14:21:57 2010
 Raid Level : raid0
 Array Size : 2441919360 (2328.80 GiB 2500.53 GB)    Raid Devices : 5  

Tổng số thiết bị: 5 Ưu tiên nhỏ: 13 Kiên trì: Superblock là liên tục

Update Time : Thu Jan 21 14:21:57 2010
      State : clean  Active Devices : 5 Working Devices : 5 

Thiết bị thất bại: 0 Thiết bị dự phòng: 0

 Chunk Size : 64K

       UUID : cfabfaee:06cf0cb2:22929c7b:7b037984
     Events : 0.3

Number   Major   Minor   RaidDevice State
   0       9        7        0      active sync   /dev/md7
   1       9        8        1      active sync   /dev/md8
   2       9        9        2      active sync   /dev/md9
   3       9       10        3      active sync   /dev/md10
   4       9       11        4      active sync   /dev/md11

Sản lượng đột kích thất bại:

/ dev / md8: Phiên bản: 00,90
Tổng số thiết bị: 2 Ưu tiên nhỏ: 8 Kiên trì: Superblock là liên tục

Update Time : Mon Jan 25 04:52:25 2010
      State : active, degraded  Active Devices : 1 Working Devices : 1

Thiết bị thất bại: 1 Thiết bị dự phòng: 0

       UUID : 2865aefa:ab6358d8:8f82caf4:1663e806
     Events : 0.11

Number   Major   Minor   RaidDevice State
   0      65       17        0      active sync   /dev/sdr1
   1       8      209        1      faulty   /dev/sdn1

Câu trả lời:


1

Xin lỗi, có thể tôi không hiểu rõ và một con mèo / Proc / mdstat có thể hữu ích, nhưng theo như tôi có thể thấy bạn đã tự bắn vào chân mình để phá hủy dữ liệu của bạn trên RAID0 và trên các mảng RAID1 bên dưới. Đó là, nếu bạn phải kiểm tra độ tin cậy của RAID, bạn phải gắn thẻ là lỗi ổ đĩa, ổ đĩa, không phá hủy các khối logic liên quan đến tất cả các đĩa RAID1, nếu tôi hiểu rõ vấn đề (hãy cho tôi biết).


0

Có lẽ bạn cần yêu cầu kernel gỡ ổ đĩa bị lỗi. nó sẽ giải phóng RAID bị treo.

Bạn có thể xóa nó bằng tập lệnh như http://bash.cyberciti.biz/diskadmin/rescan-linux-scsi-bus/


Mặc dù tập lệnh này rất thú vị và tôi sẽ phải xem xét thêm về cách thêm / xóa thiết bị để xem liệu tôi có thể buộc gỡ bỏ hay không nhưng cuối cùng hệ thống vẫn xem ổ đĩa đang hoạt động. Thiết bị không cần phải hoàn toàn chết vì cuộc đột kích phần mềm để loại bỏ nó khỏi cuộc đột kích1 và trong trường hợp này, một số lần ghi không thành công nhưng thiết bị vẫn "tồn tại"
ScottZ
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.