Tôi khá mới với ZFS và tôi có một thiết lập nhóm lưu trữ được nhân đôi đơn giản với 8 ổ đĩa. Sau một vài tuần chạy, một ổ đĩa dường như tạo ra rất nhiều lỗi, vì vậy tôi đã thay thế nó.
Một vài tuần nữa trôi qua và bây giờ tôi đang thấy những lỗi nhỏ xuất hiện xung quanh nhóm (xem zpool status
đầu ra bên dưới). Tôi có nên lo lắng về điều này? Làm thế nào tôi có thể xác định nếu lỗi cho biết ổ đĩa cần phải được thay thế?
# zpool status
pool: storage
state: ONLINE
status: One or more devices has experienced an unrecoverable error. An
attempt was made to correct the error. Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
using 'zpool clear' or replace the device with 'zpool replace'.
see: http://zfsonlinux.org/msg/ZFS-8000-9P
scan: scrub repaired 22.5K in 1h18m with 0 errors on Sun Jul 10 03:18:42 2016
config:
NAME STATE READ WRITE CKSUM
storage ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
enc-a ONLINE 0 0 2
enc-b ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
enc-c ONLINE 0 0 0
enc-d ONLINE 0 0 2
mirror-2 ONLINE 0 0 0
enc-e ONLINE 0 0 2
enc-f ONLINE 0 0 1
mirror-3 ONLINE 0 0 0
enc-g ONLINE 0 0 0
enc-h ONLINE 0 0 3
errors: No known data errors
ZFS hữu ích nói với tôi "Xác định xem có cần thay thế thiết bị không ..." nhưng tôi không chắc chắn cách thực hiện. Tôi đã đọc bài viết tham khảo đó là hữu ích nhưng không chính xác kết luận.
Tôi đã xem xét kết quả kiểm tra SMART cho các ổ đĩa bị ảnh hưởng và không có gì nhảy ra khỏi tôi (tất cả các thử nghiệm đã được hoàn thành mà không có lỗi), nhưng tôi cũng có thể đăng dữ liệu SMART nếu nó hữu ích.
Cập nhật: Trong khi chuẩn bị khởi động lại vào Memtest86 +, tôi nhận thấy rất nhiều lỗi trên bảng điều khiển. Tôi thường SSH vào, vì vậy tôi đã không nhìn thấy chúng trước đây. Tôi không chắc chắn nên kiểm tra nhật ký nào, nhưng toàn bộ màn hình chứa đầy lỗi giống như thế này (không phải dòng lỗi chính xác của tôi, tôi chỉ sao chép nó từ một diễn đàn khác):
blk_update_request: I/0 error, dev sda, sector 220473440
Từ một số Googling, có vẻ như lỗi này có thể là dấu hiệu của một ổ đĩa xấu, nhưng thật khó để tôi tin rằng tất cả chúng đều thất bại cùng một lúc như thế này. Suy nghĩ về nơi để đi từ đây?
Cập nhật 2: Tôi đã gặp vấn đề ZOL này có vẻ như nó có thể liên quan đến vấn đề của tôi. Giống như OP ở đó, tôi đang sử dụng hdparm để quay xuống các ổ đĩa của mình và tôi đang thấy các lỗi và lỗi kiểm tra ZFS tương tự blk_update_request
. Máy của tôi vẫn đang chạy Memtest, vì vậy tôi không thể kiểm tra phiên bản kernel hoặc ZFS của mình vào lúc này, nhưng điều này ít nhất trông giống như một khả năng. Tôi cũng thấy câu hỏi tương tự này là loại gây nản lòng. Có ai biết vấn đề với ZFS và quay xuống ổ đĩa không?
Cập nhật 3: Phiên bản phần mềm và trình điều khiển không khớp trên bộ điều khiển LSI có thể gây ra lỗi như thế này không? Có vẻ như tôi đang chạy phiên bản trình điều khiển 20.100.00.00 và phiên bản phần sụn là 17.00.01.00. Sẽ có giá trị trong khi thử flash firmware đã cập nhật trên thẻ?
# modinfo mpt2sas
filename: /lib/modules/3.10.0-327.22.2.el7.x86_64/kernel/drivers/scsi/mpt2sas/mpt2sas.ko
version: 20.100.00.00
license: GPL
description: LSI MPT Fusion SAS 2.0 Device Driver
author: Avago Technologies <MPT-FusionLinux.pdl@avagotech.com>
rhelversion: 7.2
srcversion: FED1C003B865449804E59F5
# sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 20.00.00.00 (2014.09.18)
Copyright (c) 2008-2014 LSI Corporation. All rights reserved
Adapter Selected is a LSI SAS: SAS2308_2(D1)
Num Ctlr FW Ver NVDATA x86-BIOS PCI Addr
----------------------------------------------------------------------------
0 SAS2308_2(D1) 17.00.01.00 11.00.00.05 07.33.00.00 00:04:00:00
Cập nhật 4: Bắt thêm một số lỗi trong dmesg
đầu ra. Tôi không chắc chắn điều gì đã kích hoạt những thứ này, nhưng tôi nhận thấy chúng sau khi ngắt kết nối tất cả các ổ đĩa trong mảng để chuẩn bị cập nhật phần sụn của bộ điều khiển LSI. Tôi sẽ chờ một chút để xem liệu bản cập nhật firmware có giải quyết được vấn đề không, nhưng đây là những lỗi trong lúc này. Tôi không thực sự chắc chắn về ý nghĩa của chúng.
[87181.144130] sd 0:0:2:0: [sdc] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144142] sd 0:0:2:0: [sdc] CDB: Write(10) 2a 00 35 04 1c d1 00 00 01 00
[87181.144148] blk_update_request: I/O error, dev sdc, sector 889461969
[87181.144255] sd 0:0:3:0: [sdd] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144259] sd 0:0:3:0: [sdd] CDB: Write(10) 2a 00 35 04 1c d1 00 00 01 00
[87181.144263] blk_update_request: I/O error, dev sdd, sector 889461969
[87181.144371] sd 0:0:4:0: [sde] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144375] sd 0:0:4:0: [sde] CDB: Write(10) 2a 00 37 03 87 30 00 00 08 00
[87181.144379] blk_update_request: I/O error, dev sde, sector 922978096
[87181.144493] sd 0:0:5:0: [sdf] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87181.144500] sd 0:0:5:0: [sdf] CDB: Write(10) 2a 00 37 03 87 30 00 00 08 00
[87181.144505] blk_update_request: I/O error, dev sdf, sector 922978096
[87191.960052] sd 0:0:6:0: [sdg] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87191.960063] sd 0:0:6:0: [sdg] CDB: Write(10) 2a 00 36 04 18 5c 00 00 01 00
[87191.960068] blk_update_request: I/O error, dev sdg, sector 906238044
[87191.960158] sd 0:0:7:0: [sdh] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87191.960162] sd 0:0:7:0: [sdh] CDB: Write(10) 2a 00 36 04 18 5c 00 00 01 00
[87191.960179] blk_update_request: I/O error, dev sdh, sector 906238044
[87195.864565] sd 0:0:0:0: [sda] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87195.864578] sd 0:0:0:0: [sda] CDB: Write(10) 2a 00 37 03 7c 68 00 00 20 00
[87195.864584] blk_update_request: I/O error, dev sda, sector 922975336
[87198.770065] sd 0:0:1:0: [sdb] FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_OK
[87198.770078] sd 0:0:1:0: [sdb] CDB: Write(10) 2a 00 37 03 7c 88 00 00 20 00
[87198.770084] blk_update_request: I/O error, dev sdb, sector 922975368
Cập nhật 5: Tôi đã cập nhật chương trình cơ sở cho bộ điều khiển LSI, nhưng sau khi xóa các lỗi ZFS và cọ rửa, tôi thấy hành vi tương tự (lỗi kiểm tra nhỏ trên một vài ổ đĩa). Bước tiếp theo sẽ là cập nhật phần sụn trên các ổ đĩa.
Cập nhật 6: Tôi đã thay thế riser PCI sau khi đọc trên một số diễn đàn rằng những người khác với vỏ USC NAS NSC800 có vấn đề với riser được cung cấp. Không có ảnh hưởng đến các lỗi tổng kiểm tra. Tôi đã ngừng cập nhật firmware HDD vì quá trình này rất khó khăn, nhưng tôi đoán đã đến lúc phải sử dụng nó và tạo một ổ flash DOS có khả năng khởi động.
Cập nhật 7: Tôi đã cập nhật chương trình cơ sở trên ba ổ đĩa Seagate. Các ổ đĩa khác không có sẵn bản cập nhật chương trình cơ sở hoặc tôi không thể tải được (Western Digital nói với tôi rằng không có bản cập nhật chương trình cơ sở cho ổ đĩa của tôi). Không có lỗi nào xuất hiện sau lần chà ban đầu, nhưng tôi sẽ đưa ra ít nhất một hoặc hai tuần trước khi tôi nói điều này giải quyết vấn đề. Đối với tôi, dường như rất khó có thể phần sụn trong ba ổ đĩa có thể ảnh hưởng đến toàn bộ nhóm như thế này.
Cập nhật 8: Các lỗi tổng kiểm tra đã trở lại, giống như trước đây. Tôi có thể xem xét một bản cập nhật firmware cho bo mạch chủ, nhưng tại thời điểm này tôi đang bị thua lỗ. Sẽ rất khó / tốn kém khi thay thế các thành phần vật lý còn lại (bộ điều khiển, bảng nối đa năng, cáp) và tôi không chắc chắn 100% rằng đó không phải là vấn đề với thiết lập của tôi (ZFS + Linux + LUKS + Quay xuống các ổ đĩa nhàn rỗi). Bất kỳ ý tưởng khác đều được chào đón.
Cập nhật 9: Vẫn đang cố gắng theo dõi cái này. Tôi bắt gặp câu hỏi này có một số điểm tương đồng với tình huống của tôi. Vì vậy, tôi đã đi trước và xây dựng lại zpool bằng cách sử dụng ashift=12
để xem điều đó có giải quyết được vấn đề không (không có may mắn). Sau đó, tôi cắn viên đạn và mua một bộ điều khiển mới. Tôi vừa cài đặt thẻ HBA Supermicro AOC-SAS2LP-MV8 . Tôi sẽ cho nó một hoặc hai tuần để xem điều này có giải quyết được vấn đề không.
Cập nhật 10: Chỉ để đóng cái này. Đã khoảng 2 tuần kể từ khi thẻ HBA mới ra đời và, có nguy cơ bị jinxing, tôi đã không có lỗi kiểm tra kể từ đó. Rất cảm ơn tất cả mọi người đã giúp tôi sắp xếp cái này.