Vẫn còn sợ: Lỗi bộ điều hợp máy chủ hủy bỏ yêu cầu sau khi làm theo các bước được đề xuất


9

Tôi đang gặp phải sự sợ hãi khét tiếng: Lỗi yêu cầu hủy bỏ bộ điều hợp máy chủ với Bộ điều khiển RAID thích ứng mới của tôi dưới I / O cao. Tôi đã đọc một số diễn đàn, thậm chí cả Adaptec , việc đặt giá trị / sys / block / sdX / device / timeout thành 45 sẽ khắc phục điều này. Tuy nhiên, tôi đang chạy Ubuntu Server 12.04 đã có giá trị này ở mức 45 theo mặc định. Tôi cũng đã thử đề xuất tiếp theo là cập nhật bios của mobo của tôi lên bản mới nhất mà tôi đã làm.

Tôi không chắc chắn liệu có ai khác gặp phải lỗi "aacston: Yêu cầu hủy bỏ bộ điều hợp máy chủ" ngay cả sau khi thực hiện các bước này không.

Đây là những gì tôi thấy trong syslog của mình:

kernel: [ 5493.523282] aacraid: Host adapter abort request (4,0,0,0)
Jan  6 20:29:15 server kernel: [ 5493.523309] aacraid: Host adapter abort request (4,0,0,0)
Jan  6 20:29:15 server kernel: [ 5493.523375] aacraid: Host adapter reset request. SCSI hang ?

Đây là uname của tôi -a

Linux server 3.2.0-29-generic #46-Ubuntu SMP Fri Jul 27 17:03:23 UTC 2012 x86_64 x86_64 x86_64 GNU/Linux

Cảm ơn tất cả,

Jim

Câu trả lời:


1

Trong trường hợp bạn chưa giải quyết được vấn đề này, gần đây tôi đã vật lộn với cùng một vấn đề nhanh chóng leo thang thành mảng treo cứ sau 5 phút trong vài phút khi IO tăng lên. Ubuntu theo mặc định sử dụng bộ lập lịch CFQ không tối ưu cho RAID phần cứng. Chuyển lịch trình sang noop với:

echo noop > /sys/block/<blockdevice>/queue/scheduler

Cá nhân tôi bị mắc kẹt với kernel cũ nhưng tôi cũng được thông báo nâng cấp lên trình điều khiển sợ mới nhất sẽ khắc phục vấn đề - mặc dù không thể xác minh điều đó. Nhưng ngay cả như vậy, chuyển sang noop. Vì sysfs không cố định nên bạn có thể muốn đặt lịch trình /etc/rc.localhoặc sử dụng elevator=tham số khởi động.

Tôi chú ý đến các tham số kernel khác cũng như các cài đặt trên Ubuntu là mặc định hợp lý cho hầu hết các phần cứng phổ biến, nhưng hầu hết các máy chủ thời gian đều cần sự chú ý đặc biệt bất kể bạn đang ở đâu.


1

Nếu bộ điều khiển RAID Adaptec của bạn có phần sụn / BIOS riêng, bạn có thể cần cập nhật nó. Chúng tôi đã gặp sự cố trong khi I / O cao và cũng có "aacston: Yêu cầu hủy bỏ bộ điều hợp máy chủ" và thấy một bản phát hành phần mềm mới hơn bản hiện tại của chúng tôi có nội dung "Đã khắc phục sự cố trong đó phần sụn có thể bị treo khi căng thẳng I / O cao." http://doad.adaptec.com/pdfs/readme/relnotes_arc_fw-b18937_asm-18837.pdf .

Các ghi chú phát hành ở trên liệt kê các mô hình Adaptec sau: 2045, 2405, 2405Q, 2805, 5085, 5405, 5405Z, 5445, 5445Z, 5805, 5805Q, 5805Z, 5805ZQ, 51245, 51645, 52445).

Chúng tôi cũng có các dòng nhật ký như:

sd 0:0:0:0: timing out command, waited 360s

Result: hostbyte=DID_OK driverbyte=DRIVER_TIMEOUT,SUGGEST_OK

Khi tìm kiếm trực tuyến để thấy những người khác gặp vấn đề tương tự, chúng tôi đã tìm thấy một dòng thẻ khác có các vấn đề sau được sửa bởi phần sụn có thể liên quan:

Hai điều trên áp dụng cho các mô hình Adaptec 7805, 7805Q, 78165, 71605E, 71605, 71605Q, 71685, 72405, 8805, 8885, 8885Q và 81605ZQ.


Tôi nghĩ bộ điều khiển của tôi sẽ bị treo khi tôi sử dụng arcconftiện ích dòng lệnh để truy vấn trạng thái của mảng như là một phần của tập lệnh giám sát Nagios thông thường của chúng tôi. Như các ghi chú phần sụn chỉ ra, việc sử dụng arcconfcó thể khiến bộ điều khiển bị treo.
Stefan Lasiewski
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.