Harddisks rơi ngoại tuyến không rõ lý do


11

Tôi có 7 hệ thống đang chạy cài đặt bên dưới. Bây giờ và sau đó một đĩa khác rơi vào chế độ ngoại tuyến, nhưng khi kiểm tra kỹ hơn, đĩa vẫn hoạt động tốt và không bị lỗi và hoạt động hoàn hảo trong ít nhất một năm nữa. Vì điều này xảy ra trên cả 7 hệ thống, tôi thấy không có khả năng có một bộ phận nào hoạt động (ví dụ: cáp), nhưng nó thay vào đó là sự kết hợp của một số bộ phận không tương thích.

Vấn đề là xác định vị trí chính xác nơi không tương thích.

(Nếu bạn thay vì có một công việc xung quanh nơi bạn có thể làm một ảo lại chỗ ngồi của ổ cứng từ dòng lệnh, sau đó bạn có thể trả lời /server/523315/re-activate-device -that-is-coi-dead ).

Phần cứng máy chủ: Dell 1950, Dell R815, Dell R715.

Hệ điều hành:

$ uname -a
Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux

Điều khiển:

$ lspci |grep 22: 
22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)
$ sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 15.00.00.00 (2012.11.06) 
Copyright (c) 2008-2012 LSI Corporation. All rights reserved

    Adapter Selected is a LSI SAS: SAS2008(B2)   

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

1  SAS2008(B2)     15.00.00.00    0f.00.00.04    07.29.00.00     00:22:00:00

    Finished Processing Commands Successfully.
    Exiting SAS2Flash.

Bảng nối đa năng mở rộng SAS / SATA-expander Supermicro 4U SAS / SATA với chip mở rộng LSI SAS2X36:

cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/model
SAS2X36         
cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/rev
0717

Đĩa:

$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/model
Hitachi HDS72404
$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/rev
A3B0

Đĩa trong một hệ thống:

$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/model
ST3000DM001-9YN1
$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/rev
CC4C

Syslog:

sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw]
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b9 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694144
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b7 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693632
sd 5:0:22:0: [sdw] Unhandled error code
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Read(16):
sd 5:0:22:0: [sdw] Unhandled error code
 88 00 00 00 00 01 43 e2 f2 d0 00 00 00 10 00 00
end_request: I/O error, dev sdw, sector 5433914064
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bd 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982695168
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
md/raid:md4: Disk failure on sdw, disabling device.
md/raid:md4: Operation continuing on 9 devices.
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b8 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693888
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bc 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694912
mpt2sas1: removing handle(0x0021), sas_addr(0x500304800182694c)

9
+1 để bắt đầu hỏi những câu hỏi quan trọng :)
Sven

Một dây cáp xấu, thiếu che chắn có thể gây ra vấn đề với tổng kiểm tra. [do đó gây ra vấn đề đọc và viết]. Bạn đã thử thay thế các dây cáp?
tu sĩ

Cáp đã được thay thế bằng hàng hóa đã biết. Ngoài ra, tôi sẽ mong Linux thử lại lệnh sau khi đặt lại bus scsi.
Ole Tange

2
Từ những gì tôi đã quản lý để khai thác cho đến nay, các thông báo chỉ ra rằng có vấn đề về kết nối - không phải cảnh báo SMART .. có lẽ ai đó có kinh nghiệm BiY sâu rộng có thể giúp đỡ. Tất cả những gì tôi biết là họ tránh xa các đĩa S-ATA trong các thiết lập lớn vì thiếu các lệnh / hàng đợi so với SAS. Tôi sẽ yêu cầu một vài người xem cái này.
pauseka

@pauska Bạn có thể xây dựng (với các liên kết?) cho những gì bạn đã đào lên?
Ole Tange

Câu trả lời:


1

Chúng tôi đang thiếu thông tin ở đây. Bạn đang đề xuất rằng bạn có 24-45 đĩa cho mỗi máy chủ trong thiết lập lưu trữ này.

  • Bạn đang sử dụng bộ điều khiển cụ thể nào?
  • Do số lượng đĩa, bạn có thể có một số ổ đĩa trong vỏ bọc bên ngoài. Vui lòng cung cấp kiểu dáng / mô hình của vỏ ổ đĩa ngoài đang sử dụng.
  • Những mô hình ổ đĩa cụ thể bạn đang sử dụng? Có phải tất cả các ổ đĩa cấp ổ đĩa máy tính để bàn?
  • Bạn đang sử dụng hệ thống tập tin nào?
  • Mô tả bố trí đĩa và RAID.
  • Đây có phải luôn luôn là một vấn đề hoặc nó đã phát triển theo thời gian?
  • Supermicro tham gia bất cứ nơi nào trong thiết lập này?

Tùy thuộc vào thiết lập bao vây, bạn có thể đang chạy vào thời gian chờ SATA hoặc lỗi bus. Điều này có thể có ảnh hưởng xấu đến tất cả các ổ đĩa được gắn vào bộ điều khiển.

Một vấn đề khác có thể là đàm phán liên kết SAS / SATA kém. Tôi chắc chắn đã trải nghiệm điều này trên một số bộ mở rộng SAS khi các ổ 1,5Gbps và 6.0Gbps được trộn trên cùng một bảng.

Vui lòng cung cấp thêm thông tin.


Tôi rất quan tâm đến câu hỏi của bạn về Supermicro. Bạn có thể xây dựng?
Halfgaar

@Halfgaar Bạn có thể cung cấp thông tin phản hồi về các câu hỏi khác tôi đã hỏi?
ewwhite

Bài viết gốc không phải của tôi. Tôi chỉ tò mò về câu nói đó.
Halfgaar

1
@Halfgaar Ooops ... Chà, tôi đã phát hiện ra rằng Supermicro SAS đã mở rộng / backplanes và một số vỏ JBOD không hoạt động có thể dự đoán được trong nhiều trường hợp. Lưu ý trong câu trả lời của tôi về việc giảm tốc độ của SAS / SATA và đàm phán liên kết là điều mà tôi chỉ mới trải nghiệm trên một số phiên bản nhất định của thiết bị Supermicro. Tôi cũng không thể sử dụng JBOD của họ cho ZFS nữa vì hành vi xấu.
ewwhite
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.