Mảng RAID6 đôi khi bị treo. Không bị phát hiện đĩa bị hỏng?

13

Chúng tôi có một máy chủ Debian với bộ điều khiển RAID 8 ổ 3Ware 9650SE, với mảng RAID6 5 đĩa, hoạt động như một máy chủ ảo, tất cả đều là Linux. Vấn đề tiếp tục xảy ra và tôi nghi ngờ một đĩa bị hỏng không bị phát hiện.

Chúng tôi đã có một vài sự cố hiện tại khi cả chủ nhà và tất cả khách đang nói rằng hệ thống IO bị chặn trong 120 giây trở lên. Chúng tôi nghi ngờ bộ điều khiển RAID bị lỗi, nhưng chúng tôi đã thay thế nó bằng một bộ điều khiển giống hệt với phần sụn giống hệt nhau, điều này không khắc phục được. Tôi không nghĩ nó sẽ như vậy, vì một mảng RAID1 thứ hai vẫn hoạt động bình thường.

Gần một tuần trước (Chủ nhật), khi điều này đang hoạt động, xác minh tự động ở mức 66%. Đêm qua (sáng thứ sáu) là 67%. Cả trước và sau khi khởi động, và cả trong khi gặp vấn đề. Khi tôi tắt xác minh với tw_cli /c0/u0 stop verify, mọi thứ trở nên phản hồi một lần nữa.

Tôi nghi ngờ rằng nó đã bị mắc kẹt trên một lỗi đĩa khoảng 66%. Xác minh tự động bắt đầu vào Thứ Bảy:

# tw_cli /c0 show verify
/c0 basic verify weekly preferred start: Saturday, 12:00AM

và thường sẽ được thực hiện lâu vào thứ Sáu. Xem như cách chủ nhật là 66% và thứ sáu là 67%, không chắc là trùng hợp.

'smartctl -a -d 3ware, 0 / dev / twa0' và 'smartctl -t long' (tự kiểm tra SMART dài) trên tất cả các ổ đĩa không phát hiện bất kỳ lỗi nào. Cũng không tw_cli /c0 show alarms.

Tôi nghi ngờ một đĩa bị hỏng theo cách khó phát hiện, nhưng tôi đã lần lượt lấy từng ổ ra khỏi mảng, tạo ra một mảng 'duy nhất' từ đó và chứa đầy số không. Không có đĩa cho thấy lỗi.

Hoặc có lời khuyên nào khác?

Biên tập:

đây là cách bố trí:

# tw_cli /c0 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-6    OK             -       -       256K    5587.9    RiW    OFF    
u1    SPARE     OK             -       -       -       1863.01   -      OFF    
u2    RAID-1    OK             -       -       -       1862.63   RiW    ON     

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   1.82 TB   SATA  0   -            ST32000542AS        
p1    OK             u0   1.82 TB   SATA  1   -            ST32000542AS        
p2    OK             u0   1.82 TB   SATA  2   -            ST32000542AS        
p3    OK             u0   1.82 TB   SATA  3   -            ST32000542AS        
p4    OK             u0   1.82 TB   SATA  4   -            ST32000542AS        
p5    OK             u1   1.82 TB   SATA  5   -            WDC WD2002FYPS-02W3 
p6    OK             u2   1.82 TB   SATA  6   -            WDC WD2002FYPS-02W3 
p7    OK             u2   1.82 TB   SATA  7   -            WDC WD2002FYPS-02W3 

Name  OnlineState  BBUReady  Status    Volt     Temp     Hours  LastCapTest
---------------------------------------------------------------------------
bbu   On           Yes       OK        OK       OK       0      xx-xxx-xxxx

Đơn vị trong câu hỏi là u0.

chỉnh sửa2:

tw_cli / c0 show diag hiển thị một cái gì đó thú vị (edit3: điều này vô hại, tôi phát hiện ra điều đó gây ra bằng cách gọi smartctl -a -d 3ware,X /dev/twa0X là một cổng không hợp lệ):

QueueAtaPassthrough() called with invalid TargetHandle: 0x17, portHandle: 0xFF

Legacy opcode=0xB1 error=0x10E

E=010E T=14:15:51     : Invalid operation for specified port
E=010E T=14:15:51 U=0 : Return error status to host
Error, Unit 23: Invalid operation for specified port
(EC:0x10e, SK=0x05, ASC=0x24, ASCQ=0x00, SEV=01, Type=0x70)
No additional sense data
Error, Unit 23: 0x10E OVERRIDDEN due to invalid sense buffer descriptor
sense buffer: len=0, address=0x414ca2c7c
Send AEN (code, time): 0031h, 06/21/2013 14:26:16
Synchronize host/controller time
(EC:0x31, SK=0x00, ASC=0x00, ASCQ=0x00, SEV=04, Type=0x71)

Tôi nhận được rất nhiều trong số này. Tôi không biết ý nghĩa của nó là gì. Tôi thậm chí không thể tìm ra đơn vị hoặc cổng đó là gì. (edit3: Tôi biết bây giờ, nó vô hại).

Đưa ra chỉnh sửa của tôi3, tôi trở lại hình vuông. Không có gì cho thấy một đĩa bị hỏng, ngoại trừ việc xác minh bị treo ở mức 66% và khiến cho mảng bị treo, điều này đôi khi cũng xảy ra ngẫu nhiên. Tôi muốn xác minh sẽ tìm thấy lỗi ...

3ware

— Halfgaar
nguồn

Ổ cứng gì? Họ có chính thức được hỗ trợ?

— grs

Tôi đã thêm bố cục. Các đĩa là ST32000542AS. Họ được hỗ trợ, nhưng hơn thế nữa, máy chủ hoạt động tốt trong 3 năm.

— Halfgaar

Tôi đã có vấn đề với một số ổ WD trở nên chậm chạp ở một số điểm. chỉ có một hdparm (không thể thực hiện ở đây một cách đáng buồn) đã cho tôi thấy mức lưu lượng ~ 300KB / s (có K!) thay vì 80 ~ 100MB / s thông thường.

— Benjamin Sonntag

1

Sự khác biệt giữa Enterprise và các ổ đĩa trên máy tính để bàn là chúng tìm ra các lỗi. Nếu các ổ Enterprise gặp bất kỳ lỗi nào, đĩa sẽ rơi ra khỏi cuộc đột kích. (như trong các công ty nhạy cảm với các rủi ro của việc lưu trữ dữ liệu và sẵn sàng trả tiền cho nó) Nếu một ổ đĩa máy tính để bàn gặp lỗi, nó sẽ cố gắng kéo dài cho đến khi hết thời gian chờ. . ví dụ goo.gl/rWb5lj

— Rainbow-

Trên thực tế, mới đây, máy chủ này đột nhiên bị treo, khác biệt và nghiêm trọng hơn so với sự cố ban đầu và các bản ghi cho thấy thời gian chờ trên cổng RAID. Thời gian chờ là trên một trong các ổ đĩa doanh nghiệp (trong đó máy chủ này hiện có nhiều hơn).

— Halfgaar

1

2 điều chưa được đưa ra cho đến nay:

Đây có phải là bộ điều khiển RAID SATA không? Nếu vậy, cáp SATA dễ bị lão hóa và việc thay thế chúng có thể giải quyết các vấn đề đó một cách dễ dàng. Hầu hết thời gian có thể được thử khi lỗi đĩa, độ trễ, thời gian chờ xảy ra nhưng các giá trị SMART đều ổn và ổ đĩa vượt qua tất cả các bài kiểm tra tự. Thật không may, việc tìm kiếm một người bán cáp SATA tốt là khó khăn.
Bộ điều khiển RAID 3Ware đã cũ và không được hỗ trợ trong những ngày này. Bạn sẽ không nhận được nâng cấp firmware cũng như phụ tùng. Trong trường hợp bộ điều khiển của bạn chết, RAID có thể không phục hồi được nếu không có bộ điều khiển AND phù hợp. Một phục hồi dữ liệu đắt tiền sau đó là cần thiết.

— phao
nguồn

0

Vấn đề này có thể là do một trong các đĩa gặp lỗi đọc và chặn toàn bộ mảng cho đến khi nó quản lý để phân bổ lại khu vực hoặc bộ điều khiển RAID giả định rằng ổ đĩa đã chết và khởi động nó ra khỏi mảng, đánh dấu nó là "Đã xuống cấp" (điều này hoàn toàn phụ thuộc vào bộ điều khiển trong câu hỏi). Điều này có thể xảy ra thường xuyên nếu một đĩa bắt đầu chết nhưng vẫn vượt qua SMART. Hầu hết các đĩa tiêu dùng sẽ tiếp tục cố gắng đọc mãi mãi.

Vấn đề này được giải quyết trong một số ổ đĩa dành cho RAID sử dụng thứ gọi là Kiểm soát khôi phục lỗi . WD gọi đây là TLER. Từ trang web:

RAID-specific time-limited error recovery (TLER) - Pioneered by WD, this feature prevents drive fallout caused by the extended hard drive error-recovery processes common to desktop drives.

Về cơ bản, nó nói với một đĩa rằng nếu nó không thể đọc một sector, hãy bỏ cuộc sau x giây. Điều này thật tuyệt vời trong RAID vì dữ liệu có thể được phục hồi từ một đĩa khác.

Từ những gì tôi đã đọc, ST32000542AS không triển khai bất kỳ hình thức ERC nào để bất kỳ trong số chúng có thể chặn toàn bộ mảng. WD2002FYPS trên thực tế thực hiện TLER của WD nên họ sẽ không gây ra vấn đề này.

— succulent_headcrab
nguồn

0

Chỉ để chắc chắn, phiên bản phần sụn của bạn là gì?

Có một vấn đề tôi gặp phải - nghe có vẻ giống như những gì bạn đang mô tả - khi các yêu cầu sau được đáp ứng:

Bộ điều khiển 3 phần 96xx
RAID 6
Kích thước sọc 256k
Phiên bản phần sụn <v4.10.00.021 *

Tại thời điểm đó không có phần mềm sửa lỗi có sẵn nên tôi đã chuyển từ kích thước sọc 256k sang 64k cũng giải quyết được vấn đề. Bạn có thể thử như một cách giải quyết, mặc dù chắc chắn sẽ mất nhiều ngày để hoàn thành.

Sau này tôi đã thử firmware mới (* 4.10.00.021 tôi nghĩ đã sửa) với 256k và hoạt động như một bùa mê. 4.10.00.027 là phiên bản mới nhất.

— Acrklor
nguồn

Chúng tôi không có vấn đề nữa. Xác minh luôn thành công. Tuy nhiên, chúng tôi đã nhận được một máy chủ hoàn chỉnh treo vài tháng trước (sau một thời gian dài không có vấn đề gì). Dmesg nói rằng đĩa x đã hết thời gian. Tôi không biết tại sao bộ điều khiển không đá nó, nhưng mặc dù nó không được đánh dấu rõ ràng là xuống cấp, tôi đã thay thế nó. Và, các đĩa khác đã được thay thế kể từ đó. Vì vậy, nó có khả năng là một vấn đề đĩa.

— Halfgaar

0

Tôi đã từng gặp vấn đề với bộ điều khiển 3ware và ổ đĩa Seagate. Có một sự không tương thích firmware tinh tế. Tôi chuyển sang ổ Samsung, vấn đề được giải quyết.

— Zdene
nguồn