Bộ điều khiển RAID phần cứng bộ nhớ cache tần số lỗi / tuổi thọ?


14

Tôi đang ở trong một môi trường chứa nhiều máy chủ Supermicro được trang bị bộ điều khiển RAID phần cứng AdaptecLSI MegaRAID . Các bộ điều khiển này chứa các mô-đun bộ đệm được hỗ trợ bằng pin để giúp tăng hiệu suất ghi và bảo vệ dữ liệu truyền.

Một vấn đề hỗ trợ thường xuyên là lỗi pin điều khiển RAID. Sự thay đổi này, các mảng từ ghi lại để viết qua chế độ. Rõ ràng có một tác động hiệu quả tiêu cực khi hệ thống chạy với tốc độ ghi bị suy giảm. Điều này vẫn tồn tại cho đến khi một cửa sổ thời gian chết có thể được thiết lập để tắt nguồn hệ thống và thay pin.

Đây là một hoạt động rất thường xuyên đối với chúng tôi; gần như hàng tuần trên vài nghìn máy chủ vật lý ... Chúng tôi thậm chí còn có các trạm sạc để chuẩn bị pin thay thế để có thể hoán đổi mà không cần chu kỳ sạc.

Có lẽ tôi bị hư hỏng bởi một lịch sử lâu dài với các máy chủ HP ProLiant và bộ điều khiển RAID mảng thông minh , nhưng các hệ thống HP thường có tuổi thọ pin từ 4 - 6 năm. Cuối cùng họ đã loại bỏ việc sử dụng pin RAID vào khoảng năm 2009. Chúng đã được thay thế bằng các mô-đun bộ nhớ được hỗ trợ bởi siêu tụ điện (bộ đệm ghi flash được hỗ trợ hoặc FBWC) và không yêu cầu thay thế, thải bỏ hoặc chu kỳ sạc ban đầu dài.

Vì tôi thấy các lỗi của bộ điều khiển Adaptec và LSI đôi khi xảy ra trên các hệ thống đã hoạt động dưới 12 tháng, tôi tự hỏi liệu điều này có phổ biến trong các môi trường khác không.

Nếu điều này là phổ biến, làm thế nào để các môi trường máy chủ lớn khác xử lý việc này?

  • Bất kỳ mẹo hoặc thủ thuật để xử lý thay thế pin RAID?
  • Có bất kỳ tham số cấu hình có thể giúp đỡ?
  • Làm thế nào phá vỡ điều này để hoạt động trong môi trường của bạn ?
  • Có thể làm mát khung gầm kém và nhiệt độ là một yếu tố?
  • Có phải chúng ta làm sai điều gì?
  • Bộ điều khiển Dell PERC được sản xuất bởi LSI. Các môi trường Dell có trải nghiệm tuổi thọ pin ngắn không?

Tài liệu sản phẩm LSI phác thảo một pin thế hệ mới có thể hoạt động lâu hơn 1 năm. nhập mô tả hình ảnh ở đây

Máy chủ HP ProLiant DL585 G2 với hơn 1000 ngày hoạt động và pin RAID hạnh phúc ...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK

2
Chỉ là một gợi ý: Thế hệ cuối cùng của bộ điều khiển Adaptec sử dụng siêu tụ / flash thay vì pin.
Sven

Oh, Tôi biết rằng tất cả các nhà sản xuất có giải pháp supercap dựa trên hiện nay , nhưng với những dấu chân cài đặt hiện có, thật khó để thực hiện một sự thay đổi rộng khắp các cơ sở hạ tầng.
ewwhite

2
Tôi chưa bao giờ thực hiện điều này (có lẽ vì nó nghe có vẻ là một ý tưởng tồi và tôi không gặp vấn đề thường xuyên như bạn), nhưng bạn có thể thử thay pin RAID trên máy chủ thử nghiệm khi đang bật. Trượt nó ra, tháo nắp, ngắt kết nối pin xấu và kết nối tốt, sau đó quay trở lại giá đỡ ... Nếu mọi việc suôn sẻ, bạn có một quy trình thay thế pin mới không liên quan đến thời gian chết.
8

2
@August Uhm, khi các thủ tục rủi ro diễn ra, điều này nghe có vẻ khá cao trong danh sách "OMG WHERE DID MY DATA GO".
Dan

2
Đúng, chắc chắn là ... Tôi đồng ý rằng nó nghe có vẻ là một ý tưởng khủng khiếp, nhưng với tình huống và yêu cầu không có thời gian chết, nó có thể đáng để bắn vào một máy chủ thử nghiệm (hoặc ba mươi máy chủ thử nghiệm ...) để xem liệu nó có khả thi. Một lựa chọn khác ngoài việc làm lại cơ sở hạ tầng để không phụ thuộc vào pin RAID riêng lẻ trong hàng ngàn máy chủ là gì?
8

Câu trả lời:


9

Tôi nghi ngờ Supermicros của bạn bị hỏng theo cách này hay cách khác - có thể là các bộ pin quá nóng. Hầu hết các LSI gần đây sẽ báo cáo nhiệt độ thông qua MegaCLI - bạn có thể muốn theo dõi giá trị này trên các máy chủ cần thay thế.

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

Tôi đã thấy một vài hệ thống Dell và Fujitsu với bộ điều khiển LSI BBU, không ai trong số họ có thay pin hàng năm (trừ khi bạn vặn gói lên bằng cách xả sâu). Thời gian sống điển hình là khoảng 3 đến 5 năm.


4
Tôi sẽ nói thêm rằng trừ khi hệ thống GIẢI QUYẾT cho phép thay thế nóng BBU RAID, tôi sẽ không thử. Tôi chưa bao giờ thấy một hệ thống yêu cầu thay thế pin bộ nhớ cache hàng năm. 3-5 năm là một cuộc sống dịch vụ điển hình.
voretaq7

Toi nghi ban da hieu!
ewwhite

1

Tuổi thọ pin trung bình nên là 3-5 năm. Và đừng quên rằng FBWC dựa trên flash cũng thất bại. Tôi không biết tại sao / như thế nào, nhưng chúng tôi đã thay thế họ thường xuyên trên máy chủ HP của chúng tôi. Tôi nên sử dụng lâu hơn pin, nhưng tôi không có số liệu thống kê từ các máy chủ riêng lẻ của chúng tôi.

Cách tiêu chuẩn để ngăn chặn ảnh hưởng của việc hỏng pin và học pin là có nhiều pin. Đây là cách lưu trữ HP (như HP EVA) có nó. Bạn có 2 pin cắm nóng và trong khi một pin sạc thấp hoặc được thay thế, bộ điều khiển hoạt động với pin còn lại. Tôi không chắc có thể kết nối nhiều pin với SmartArray hay không, nhưng hpacucli diagđầu ra cho thấy nó nên được hỗ trợ:

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         

1

Kinh nghiệm của tôi với các phiên bản IBM của nền tảng LSI qua vài trăm lần cài đặt là pin trung bình chỉ tạo ra 2yrs và siêu tụ điện không tốt hơn, một số có thể được sửa bằng bản cập nhật firmware, nhưng LSI chỉ không có nó đúng. Tôi đã có khoảng 75% siêu thất bại trong 2 năm đầu tiên.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.