Lỗi kiểm tra ZFS, khi nào tôi thay thế ổ đĩa?


9

Tôi khá mới với ZFS và tôi có một thiết lập nhóm lưu trữ được nhân đôi đơn giản với 8 ổ đĩa. Sau một vài tuần chạy, một ổ đĩa dường như tạo ra rất nhiều lỗi, vì vậy tôi đã thay thế nó.

Một vài tuần nữa trôi qua và bây giờ tôi đang thấy những lỗi nhỏ xuất hiện xung quanh nhóm (xem zpool statusđầu ra bên dưới). Tôi có nên lo lắng về điều này? Làm thế nào tôi có thể xác định nếu lỗi cho biết ổ đĩa cần phải được thay thế?

# zpool status
  pool: storage
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 22.5K in 1h18m with 0 errors on Sun Jul 10 03:18:42 2016
config:

        NAME        STATE     READ WRITE CKSUM
        storage     ONLINE       0     0     0
          mirror-0  ONLINE       0     0     0
            enc-a   ONLINE       0     0     2
            enc-b   ONLINE       0     0     0
          mirror-1  ONLINE       0     0     0
            enc-c   ONLINE       0     0     0
            enc-d   ONLINE       0     0     2
          mirror-2  ONLINE       0     0     0
            enc-e   ONLINE       0     0     2
            enc-f   ONLINE       0     0     1
          mirror-3  ONLINE       0     0     0
            enc-g   ONLINE       0     0     0
            enc-h   ONLINE       0     0     3

errors: No known data errors

ZFS hữu ích nói với tôi "Xác định xem có cần thay thế thiết bị không ..." nhưng tôi không chắc chắn cách thực hiện. Tôi đã đọc bài viết tham khảo đó là hữu ích nhưng không chính xác kết luận.

Tôi đã xem xét kết quả kiểm tra SMART cho các ổ đĩa bị ảnh hưởng và không có gì nhảy ra khỏi tôi (tất cả các thử nghiệm đã được hoàn thành mà không có lỗi), nhưng tôi cũng có thể đăng dữ liệu SMART nếu nó hữu ích.

Cập nhật: Trong khi chuẩn bị khởi động lại vào Memtest86 +, tôi nhận thấy rất nhiều lỗi trên bảng điều khiển. Tôi thường SSH vào, vì vậy tôi đã không nhìn thấy chúng trước đây. Tôi không chắc chắn nên kiểm tra nhật ký nào, nhưng toàn bộ màn hình chứa đầy lỗi giống như thế này (không phải dòng lỗi chính xác của tôi, tôi chỉ sao chép nó từ một diễn đàn khác):

blk_update_request: I/0 error, dev sda, sector 220473440

Từ một số Googling, có vẻ như lỗi này có thể là dấu hiệu của một ổ đĩa xấu, nhưng thật khó để tôi tin rằng tất cả chúng đều thất bại cùng một lúc như thế này. Suy nghĩ về nơi để đi từ đây?

Cập nhật 2: Tôi đã gặp vấn đề ZOL này có vẻ như nó có thể liên quan đến vấn đề của tôi. Giống như OP ở đó, tôi đang sử dụng hdparm để quay xuống các ổ đĩa của mình và tôi đang thấy các lỗi và lỗi kiểm tra ZFS tương tự blk_update_request. Máy của tôi vẫn đang chạy Memtest, vì vậy tôi không thể kiểm tra phiên bản kernel hoặc ZFS của mình vào lúc này, nhưng điều này ít nhất trông giống như một khả năng. Tôi cũng thấy câu hỏi tương tự này là loại gây nản lòng. Có ai biết vấn đề với ZFS và quay xuống ổ đĩa không?

Cập nhật 3: Phiên bản phần mềm và trình điều khiển không khớp trên bộ điều khiển LSI có thể gây ra lỗi như thế này không? Có vẻ như tôi đang chạy phiên bản trình điều khiển 20.100.00.00 và phiên bản phần sụn là 17.00.01.00. Sẽ có giá trị trong khi thử flash firmware đã cập nhật trên thẻ?

# modinfo mpt2sas
filename:       /lib/modules/3.10.0-327.22.2.el7.x86_64/kernel/drivers/scsi/mpt2sas/mpt2sas.ko
version:        20.100.00.00
license:        GPL
description:    LSI MPT Fusion SAS 2.0 Device Driver
author:         Avago Technologies <MPT-FusionLinux.pdl@avagotech.com>
rhelversion:    7.2
srcversion:     FED1C003B865449804E59F5

# sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 20.00.00.00 (2014.09.18) 
Copyright (c) 2008-2014 LSI Corporation. All rights reserved 

    Adapter Selected is a LSI SAS: SAS2308_2(D1) 

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

0  SAS2308_2(D1)   17.00.01.00    11.00.00.05    07.33.00.00     00:04:00:00

Cập nhật 4: Bắt thêm một số lỗi trong dmesgđầu ra. Tôi không chắc chắn điều gì đã kích hoạt những thứ này, nhưng tôi nhận thấy chúng sau khi ngắt kết nối tất cả các ổ đĩa trong mảng để chuẩn bị cập nhật phần sụn của bộ điều khiển LSI. Tôi sẽ chờ một chút để xem liệu bản cập nhật firmware có giải quyết được vấn đề không, nhưng đây là những lỗi trong lúc này. Tôi không thực sự chắc chắn về ý nghĩa của chúng.

[87181.144130] sd 0:0:2:0: [sdc] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144142] sd 0:0:2:0: [sdc] CDB: Write(10) 2a 00 35 04 1c d1 00 00 01 00
[87181.144148] blk_update_request: I/O error, dev sdc, sector 889461969
[87181.144255] sd 0:0:3:0: [sdd] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144259] sd 0:0:3:0: [sdd] CDB: Write(10) 2a 00 35 04 1c d1 00 00 01 00
[87181.144263] blk_update_request: I/O error, dev sdd, sector 889461969
[87181.144371] sd 0:0:4:0: [sde] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144375] sd 0:0:4:0: [sde] CDB: Write(10) 2a 00 37 03 87 30 00 00 08 00
[87181.144379] blk_update_request: I/O error, dev sde, sector 922978096
[87181.144493] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144500] sd 0:0:5:0: [sdf] CDB: Write(10) 2a 00 37 03 87 30 00 00 08 00
[87181.144505] blk_update_request: I/O error, dev sdf, sector 922978096
[87191.960052] sd 0:0:6:0: [sdg] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87191.960063] sd 0:0:6:0: [sdg] CDB: Write(10) 2a 00 36 04 18 5c 00 00 01 00
[87191.960068] blk_update_request: I/O error, dev sdg, sector 906238044
[87191.960158] sd 0:0:7:0: [sdh] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87191.960162] sd 0:0:7:0: [sdh] CDB: Write(10) 2a 00 36 04 18 5c 00 00 01 00
[87191.960179] blk_update_request: I/O error, dev sdh, sector 906238044
[87195.864565] sd 0:0:0:0: [sda] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87195.864578] sd 0:0:0:0: [sda] CDB: Write(10) 2a 00 37 03 7c 68 00 00 20 00
[87195.864584] blk_update_request: I/O error, dev sda, sector 922975336
[87198.770065] sd 0:0:1:0: [sdb] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87198.770078] sd 0:0:1:0: [sdb] CDB: Write(10) 2a 00 37 03 7c 88 00 00 20 00
[87198.770084] blk_update_request: I/O error, dev sdb, sector 922975368

Cập nhật 5: Tôi đã cập nhật chương trình cơ sở cho bộ điều khiển LSI, nhưng sau khi xóa các lỗi ZFS và cọ rửa, tôi thấy hành vi tương tự (lỗi kiểm tra nhỏ trên một vài ổ đĩa). Bước tiếp theo sẽ là cập nhật phần sụn trên các ổ đĩa.

Cập nhật 6: Tôi đã thay thế riser PCI sau khi đọc trên một số diễn đàn rằng những người khác với vỏ USC NAS NSC800 có vấn đề với riser được cung cấp. Không có ảnh hưởng đến các lỗi tổng kiểm tra. Tôi đã ngừng cập nhật firmware HDD vì quá trình này rất khó khăn, nhưng tôi đoán đã đến lúc phải sử dụng nó và tạo một ổ flash DOS có khả năng khởi động.

Cập nhật 7: Tôi đã cập nhật chương trình cơ sở trên ba ổ đĩa Seagate. Các ổ đĩa khác không có sẵn bản cập nhật chương trình cơ sở hoặc tôi không thể tải được (Western Digital nói với tôi rằng không có bản cập nhật chương trình cơ sở cho ổ đĩa của tôi). Không có lỗi nào xuất hiện sau lần chà ban đầu, nhưng tôi sẽ đưa ra ít nhất một hoặc hai tuần trước khi tôi nói điều này giải quyết vấn đề. Đối với tôi, dường như rất khó có thể phần sụn trong ba ổ đĩa có thể ảnh hưởng đến toàn bộ nhóm như thế này.

Cập nhật 8: Các lỗi tổng kiểm tra đã trở lại, giống như trước đây. Tôi có thể xem xét một bản cập nhật firmware cho bo mạch chủ, nhưng tại thời điểm này tôi đang bị thua lỗ. Sẽ rất khó / tốn kém khi thay thế các thành phần vật lý còn lại (bộ điều khiển, bảng nối đa năng, cáp) và tôi không chắc chắn 100% rằng đó không phải là vấn đề với thiết lập của tôi (ZFS + Linux + LUKS + Quay xuống các ổ đĩa nhàn rỗi). Bất kỳ ý tưởng khác đều được chào đón.

Cập nhật 9: Vẫn đang cố gắng theo dõi cái này. Tôi bắt gặp câu hỏi này có một số điểm tương đồng với tình huống của tôi. Vì vậy, tôi đã đi trước và xây dựng lại zpool bằng cách sử dụng ashift=12để xem điều đó có giải quyết được vấn đề không (không có may mắn). Sau đó, tôi cắn viên đạn và mua một bộ điều khiển mới. Tôi vừa cài đặt thẻ HBA Supermicro AOC-SAS2LP-MV8 . Tôi sẽ cho nó một hoặc hai tuần để xem điều này có giải quyết được vấn đề không.

Cập nhật 10: Chỉ để đóng cái này. Đã khoảng 2 tuần kể từ khi thẻ HBA mới ra đời và, có nguy cơ bị jinxing, tôi đã không có lỗi kiểm tra kể từ đó. Rất cảm ơn tất cả mọi người đã giúp tôi sắp xếp cái này.


2
Bạn có thể cho chúng tôi biết thêm về phần cứng? Có những lỗi đó trên nhiều ổ đĩa dường như cho thấy vấn đề về bảng nối đa năng / bộ điều khiển / cáp nhiều hơn là vấn đề về đĩa.
ewwhite

Tôi đã không nghĩ về điều đó. Các ổ đĩa nằm trong khung gầm U-NAS NSC-800 đi kèm với một bảng nối đa năng SATA / SAS tích hợp. Điều đó được kết nối thông qua 2 đầu nối mini với HBA LSI SAS 9207-8i . Điều đó được kết nối thông qua một riser PCI đi kèm với khung gầm với Supermicro MBD-X10SDV-4C .
Đaminh P

1
RAM của bạn có ổn không? Tôi đã gặp lỗi tương tự khi mô-đun bộ nhớ bị lỗi - không có lỗi đĩa, nhưng một số lỗi tổng kiểm tra (thấp) trên tất cả các ổ đĩa.
121391

1
Rằng rất có thể bộ điều khiển rõ ràng là rõ ràng vào thời điểm này. Thật ra nó đã rõ ràng một thời gian trước đây, với "Cập nhật 4".
Michael Hampton

1
Bạn được chào đón @ hak8or. Những người trên trang này đã giúp tôi rất nhiều, vì vậy thật tuyệt khi nghe ví dụ của tôi có thể giúp đỡ người khác.
Đaminh P

Câu trả lời:


6

Có những lỗi đó trên nhiều ổ đĩa dường như cho thấy vấn đề về bảng nối đa năng / bộ điều khiển / cáp nhiều hơn là vấn đề về đĩa hoặc RAM.


Cảm ơn đã giúp đỡ. Tôi không thể trao đổi tất cả các thành phần đó vào lúc này. Bạn có gợi ý về cách tôi có thể thu hẹp nó hoặc điều gì có thể là thủ phạm có khả năng nhất?
Đaminh P

Hãy thử cập nhật firmware của tất cả các thành phần bị ảnh hưởng. Đây có phải là những đĩa SATA không?
ewwhite

Sẽ làm, cảm ơn. Tôi sẽ bắt đầu với bản cập nhật chương trình cơ sở trên bộ điều khiển bởi vì tôi đã thấy các phiên bản phần mềm và trình điều khiển phù hợp ở nơi khác (xem bản cập nhật 3 về câu hỏi của tôi). Vâng, tất cả chúng đều là các đĩa SATA 1TB và tôi nhớ rằng smartctlđã có bản cập nhật firmware cho một số đĩa Seagate tôi đang sử dụng, vì vậy tôi cũng sẽ cập nhật chúng.
Đaminh P

7

Nguyên tắc chung của tôi là nếu các lỗi tiếp tục tăng bất ngờ, đĩa cần được thay thế; nếu là tĩnh, có thể đã xảy ra một số điều kiện nhất thời gây ra lỗi và hệ thống không tái tạo các điều kiện gây ra sự cố.

Một vài lỗi kiểm tra không nhất thiết chỉ ra bất cứ điều gì xấu về cơ học với ổ đĩa (bit rot xảy ra, ZFS chỉ xảy ra để phát hiện ra nó trong khi các hệ thống tệp khác thì không), nhưng nếu những lỗi đó đã xảy ra trong suốt một giờ, thì đó là một lỗi tình huống khác nhiều so với việc chúng đã xảy ra trong suốt một năm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.