Chúng tôi có một máy chủ Debian với bộ điều khiển RAID 8 ổ 3Ware 9650SE, với mảng RAID6 5 đĩa, hoạt động như một máy chủ ảo, tất cả đều là Linux. Vấn đề tiếp tục xảy ra và tôi nghi ngờ một đĩa bị hỏng không bị phát hiện.
Chúng tôi đã có một vài sự cố hiện tại khi cả chủ nhà và tất cả khách đang nói rằng hệ thống IO bị chặn trong 120 giây trở lên. Chúng tôi nghi ngờ bộ điều khiển RAID bị lỗi, nhưng chúng tôi đã thay thế nó bằng một bộ điều khiển giống hệt với phần sụn giống hệt nhau, điều này không khắc phục được. Tôi không nghĩ nó sẽ như vậy, vì một mảng RAID1 thứ hai vẫn hoạt động bình thường.
Gần một tuần trước (Chủ nhật), khi điều này đang hoạt động, xác minh tự động ở mức 66%. Đêm qua (sáng thứ sáu) là 67%. Cả trước và sau khi khởi động, và cả trong khi gặp vấn đề. Khi tôi tắt xác minh với tw_cli /c0/u0 stop verify
, mọi thứ trở nên phản hồi một lần nữa.
Tôi nghi ngờ rằng nó đã bị mắc kẹt trên một lỗi đĩa khoảng 66%. Xác minh tự động bắt đầu vào Thứ Bảy:
# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM
và thường sẽ được thực hiện lâu vào thứ Sáu. Xem như cách chủ nhật là 66% và thứ sáu là 67%, không chắc là trùng hợp.
'smartctl -a -d 3ware, 0 / dev / twa0' và 'smartctl -t long' (tự kiểm tra SMART dài) trên tất cả các ổ đĩa không phát hiện bất kỳ lỗi nào. Cũng không tw_cli /c0 show alarms
.
Tôi nghi ngờ một đĩa bị hỏng theo cách khó phát hiện, nhưng tôi đã lần lượt lấy từng ổ ra khỏi mảng, tạo ra một mảng 'duy nhất' từ đó và chứa đầy số không. Không có đĩa cho thấy lỗi.
Hoặc có lời khuyên nào khác?
Biên tập:
đây là cách bố trí:
# tw_cli /c0 show
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-6 OK - - 256K 5587.9 RiW OFF
u1 SPARE OK - - - 1863.01 - OFF
u2 RAID-1 OK - - - 1862.63 RiW ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 1.82 TB SATA 0 - ST32000542AS
p1 OK u0 1.82 TB SATA 1 - ST32000542AS
p2 OK u0 1.82 TB SATA 2 - ST32000542AS
p3 OK u0 1.82 TB SATA 3 - ST32000542AS
p4 OK u0 1.82 TB SATA 4 - ST32000542AS
p5 OK u1 1.82 TB SATA 5 - WDC WD2002FYPS-02W3
p6 OK u2 1.82 TB SATA 6 - WDC WD2002FYPS-02W3
p7 OK u2 1.82 TB SATA 7 - WDC WD2002FYPS-02W3
Name OnlineState BBUReady Status Volt Temp Hours LastCapTest
---------------------------------------------------------------------------
bbu On Yes OK OK OK 0 xx-xxx-xxxx
Đơn vị trong câu hỏi là u0.
chỉnh sửa2:
tw_cli / c0 show diag hiển thị một cái gì đó thú vị (edit3: điều này vô hại, tôi phát hiện ra điều đó gây ra bằng cách gọi smartctl -a -d 3ware,X /dev/twa0
X là một cổng không hợp lệ):
QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF
Legacy opcode=0xB1 error=0x10E
E=010E T=14:15:51 : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)
Tôi nhận được rất nhiều trong số này. Tôi không biết ý nghĩa của nó là gì. Tôi thậm chí không thể tìm ra đơn vị hoặc cổng đó là gì. (edit3: Tôi biết bây giờ, nó vô hại).
Đưa ra chỉnh sửa của tôi3, tôi trở lại hình vuông. Không có gì cho thấy một đĩa bị hỏng, ngoại trừ việc xác minh bị treo ở mức 66% và khiến cho mảng bị treo, điều này đôi khi cũng xảy ra ngẫu nhiên. Tôi muốn xác minh sẽ tìm thấy lỗi ...