Điều gì xảy ra nếu tôi buộc ZFS tách rời một phụ tùng nóng không có bản sao hợp lệ?


9

Tôi có một nhóm ZFS được tạo từ 6 RAIDZ. Một trong những RAIDZ bị xuống cấp, do mất hai đĩa trong RAIDZ duy nhất đủ gần nhau mà ZFS không thể phục hồi từ thất bại đầu tiên trước khi đĩa thứ hai thất bại. Đây là đầu ra từ "trạng thái zpool" ngay sau khi khởi động lại:

  pool: pod2
 state: DEGRADED
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: resilver in progress for 0h6m, 0.05% done, 237h17m to go
config:

        NAME                                                 STATE     READ WRITE CKSUM
        pod2                                                 DEGRADED     0     0 29.3K
          raidz1-0                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F165XG    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F1660X    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F1678R    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F1689F    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16AW9    ONLINE       0     0     0
          raidz1-1                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16C6E    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16C9F    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16FCD    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F16JDQ    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17M6V    ONLINE       0     0     0
          raidz1-2                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17MSZ    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17MXE    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17XKB    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17XMW    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F17ZHY    ONLINE       0     0     0
          raidz1-3                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F18BM4    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F18BRF    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_W1F18XLP    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09880    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F098BE    ONLINE       0     0     0
          raidz1-4                                           DEGRADED     0     0 58.7K
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09B0M    ONLINE       0     0     0
            spare-1                                          DEGRADED     0     0     0
              disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09BEN  UNAVAIL      0     0     0  cannot open
              disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F49M01  ONLINE       0     0     0  837K resilvered
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0D6LC    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0CWD1    ONLINE       0     0     0
            spare-4                                          DEGRADED     0     0     0
              disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F09C8G  UNAVAIL      0     0     0  cannot open
              disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F4A7ZE  ONLINE       0     0     0  830K resilvered
          raidz1-5                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-1CH_Z1F2KNQP    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BML0    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BPV4    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BPZP    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQ78    ONLINE       0     0     0
          raidz1-6                                           ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQ9G    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQDF    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BQFQ    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0CW1A    ONLINE       0     0     0
            disk/by-id/scsi-SATA_ST3000DM001-9YN_Z1F0BV7M    ONLINE       0     0     0
        spares
          disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F49M01      INUSE     currently in use
          disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F4A7ZE      INUSE     currently in use
          disk/by-id/scsi-SATA_ST3000DM001-1CH_W1F49MB1      AVAIL   
          disk/by-id/scsi-SATA_ST3000DM001-1ER_Z5001SS2      AVAIL   
          disk/by-id/scsi-SATA_ST3000DM001-1ER_Z5001R0F      AVAIL   

errors: 37062187 data errors, use '-v' for a list

Khi đĩa đầu tiên thất bại, tôi đã thay thế nó bằng một phụ tùng nóng và nó bắt đầu phục hồi. Trước khi bộ phục hồi hoàn thành, một đĩa thứ hai không thành công, vì vậy tôi đã thay thế đĩa thứ hai bằng một phụ tùng nóng khác. Kể từ đó, nó sẽ bắt đầu phục hồi, hoàn thành khoảng 50% và sau đó bắt đầu ngấu nghiến bộ nhớ cho đến khi nó ăn hết và khiến HĐH bị sập.

Upgrading the RAM on the server isn't a straightforward option at this point, and it's unclear to me that doing so would guarantee a solution. I understand that there will be data loss at this stage, but if I can sacrifice the contents of this one RAIDZ to preserve the rest of the pool that is a perfectly acceptable outcome. I am in the process of backing up the contents of this server to another server, but the memory consumption issue forces a reboot (or crash) every 48 hours or so, which interrupts my rsync backup, and restarting the rsync takes time (it can resume once it figures out where it left off, but that takes a very long time).

Tôi nghĩ rằng ZFS cố gắng xử lý hai hoạt động thay thế dự phòng là gốc rễ của vấn đề tiêu thụ bộ nhớ, vì vậy tôi muốn loại bỏ một trong những phụ tùng nóng để ZFS có thể hoạt động cùng một lúc. Tuy nhiên, khi tôi cố gắng tách một trong các phụ tùng, tôi nhận được "không thể tách / dev / đĩa / by-id / scsi-SATA_ST3000DM001-1CH_W1F49M01: không có bản sao hợp lệ". Có lẽ tôi có thể sử dụng tùy chọn -f để buộc hoạt động, nhưng tôi không rõ chính xác kết quả của việc đó sẽ là gì, vì vậy tôi muốn xem liệu có ai có bất kỳ đầu vào nào trước khi tiếp tục không.

Nếu tôi có thể đưa hệ thống về trạng thái ổn định, nơi nó có thể duy trì hoạt động đủ lâu để sao lưu hoàn thành, tôi dự định gỡ bỏ nó để đại tu, nhưng với điều kiện hiện tại, nó bị kẹt trong một vòng lặp khôi phục.


Bạn đã gắn thẻ này zfs-fuse. Đây thực sự là cầu chì ZFS? Vui lòng cung cấp chi tiết hệ điều hành.
ewwhite

Bạn đặt cược ewwhite. Debian
6.0.6

Hệ thống này có bao nhiêu RAM? Làm thế nào thường xuyên bạn đã chà mảng?
Chris S

Tại sao bạn sử dụng FUSE mà không phải là triển khai ZFS thực sự? Đặc biệt là có rất nhiều phần cứng ở đây. Tôi nghĩ rằng mảng này đã được thực hiện ...
ewwhite

Tại thời điểm hệ thống được xây dựng, không có triển khai ZFS riêng cho Linux.
jasongullickson

Câu trả lời:


1

Ngay bây giờ bạn có thể tách các đĩa UNAVAIL, ZFS không còn sử dụng các đĩa đó nữa.

Bạn đã có hai đĩa bị lỗi trong thiết lập RAIDZ-1. Rất có khả năng bạn đang xem xét một số mất dữ liệu và nên sẵn sàng khôi phục từ bản sao lưu.

Là một lưu ý phụ, RAIDZ đã được chứng minh là rất không ổn trong trải nghiệm của tôi với OpenSolaris / Solaris11. Tôi sẽ khuyên không nên sử dụng nó trong bất kỳ loại khối lượng công việc sản xuất nào.

Ngoài ra, để củng cố những gì ewwhite đã nói, FUSE không phải là lựa chọn tốt nhất của bạn. Tôi sẽ nhân cơ hội này để chuyển sang một thứ gì đó ổn định hơn (có lẽ là FreeBSD 10).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.