Làm cách nào để máy chủ HP của tôi gửi email cho tôi khi ổ đĩa bị lỗi?

11

Lý tưởng nhất là cài đặt đơn giản nhất có thể và không yêu cầu khởi động lại máy chủ. Chủ yếu là DL380 G5'snếu nó giúp.

— DrZaiusApeLord
nguồn

Xấu hổ vì họ không phải là G7 hoặc bạn có thể sử dụng HP Insight Manager.

— Tom O'Connor

Máy chủ của bạn đang chạy Windows hoặc Linux?

— Tom O'Connor

Những hệ điều hành nào bạn đang chạy trên các máy chủ này?

— ewwhite

Tất cả đều là 2003 hoặc 2008 cả vanilla và R2. Tôi đã chơi với SIM nhưng không thể nói chuyện với G5 của tôi.

— DrZaiusApeLord

SIM vẫn phải tương thích với G5 ProLiants. Bạn đã cài đặt các tác nhân khi bạn thử trước đây?

— ewwhite

16

Điều này phụ thuộc một chút vào hệ điều hành bạn đang chạy trên máy chủ, nhưng nói chung, có thể nhận được cảnh báo từ máy chủ HP ProLiant và bộ điều khiển RAID mảng thông minh.

Danh sách hỗ trợ trình điều khiển và phần mềm đầy đủ cho các hệ thống DL380 G5 của bạn được liệt kê ở đây .

SNMP và một giải pháp giám sát là cách tiếp cận tốt nhất ... Nhưng bạn có thể tăng cường điều đó bằng một số công cụ của HP. HP cung cấp Trình quản lý cái nhìn sâu sắc của HP Systems , có sẵn để tải xuống và cũng đi kèm với các máy chủ. Điều này là lý tưởng cho các bộ sưu tập của các máy chủ. Nếu bạn đang tìm kiếm thông báo một lần mà không xây dựng cơ sở hạ tầng quản lý hoặc giám sát, bạn chỉ cần cài đặt Đại lý quản lý HP (còn gọi là Gói hỗ trợ ProLiant ).

Đối với các hệ thống Linux độc lập, tôi sẽ có các tác nhân gửi bẫy qua email. Tôi thường sẽ định cấu hình gói hỗ trợ với mặc định hoặc gói tùy chỉnh , sau đó chỉnh sửa /opt/hp/hp-snmp-agents/cma.confvà thay đổi trapemaildòng để trỏ đến địa chỉ người nhận:

########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
#             trapemail /usr/bin/logger
#       will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' systems@1234.net

Nếu bạn đang chạy Linux và không muốn cài đặt bộ quản lý HP đầy đủ, bạn có thể phát triển một tập lệnh xung quanh tiện ích cciss_vol_status để truy vấn trạng thái bộ điều khiển / đĩa. Xem thêm: Cài đặt Đại lý HP trên OpenFiler

— ewwhite
nguồn

có cách nào hay để kiểm tra cảnh báo về lỗi mảng RAID, ngoài việc rút ổ đĩa ra khỏi khe không? Tôi đã có một vài ProLiant DL360 G7máy chủ và HP SIM được thiết lập để theo dõi.

— Banjer

Không phải là tôi biết. Các đặc vụ Insight chắc chắn làm việc. Nếu bạn có thể thấy trạng thái mảng thông qua tiện ích hpacucli và bạn biết rằng bạn đang nhận được thông báo trong HP SIM, tôi nghĩ thật công bằng khi cho rằng mọi thứ sẽ hoạt động.

— ewwhite

5

Kiểm tra HP Insight Manager

https://www.hpe.com/us/en/product-catalog/detail/pip.489496.html#

Tôi tin rằng nó sẽ làm việc với Máy chủ của bạn.

— ckliborn
nguồn

3

Tôi đã sử dụng chương trình nhẹ mà @ewwite đã đề cập trong câu trả lời của anh ấy: cciss_vol_status

Nếu bạn làm theo các hướng dẫn CÀI ĐẶT đi kèm, tập lệnh sẽ được đặt vào /usr/local/bin/cciss_vol_status.

Đây là tập lệnh bao bọc mà tôi sử dụng để grep đầu ra của cciss_vol_status và gửi email nếu bất kỳ mảng nào có trạng thái FAILED.

#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers.  Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`

# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host=`hostname`
# To: email
_toemail=root

# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}

if echo $status | grep -q FAILED
then
    # make sure we haven't sent a notification in the last X minutes
    if test `find ${lockfile} -mmin +${_notification_freq}`
    then
        echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}

        # update lock file mod time
        /bin/touch ${lockfile}
    fi
fi

Gọi đoạn script trên bằng cron. Tôi chạy kiểm tra cứ sau hai phút:

*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh

Chúng tôi sử dụng HP System Insight Manager để kiểm tra xem HP của chúng tôi có hoạt động hay không, nhưng không có gì ngoài điều đó. Tôi thấy tác nhân Linux là quá mức cần thiết cho chúng tôi, vì chúng tôi có các giải pháp giám sát khác, vì vậy tập lệnh này ở trên phục vụ tốt mục đích cụ thể của nó.

CẬP NHẬT

Chỉ là một mẹo xử lý sự cố trong trường hợp bạn gặp phải vấn đề này. Kịch bản này tỏ ra hữu ích sáng nay khi tôi nhận được email về một mảng không thành công với:

Đạt đến giới hạn bẩn của bộ nhớ cache

Thiết bị chỉ đọc và không nhìn thấy được /proc/partitions. Tôi khởi động lại máy chủ và thấy những thông báo này khi khởi động:

(Các) ổ đĩa logic bị vô hiệu hóa do mất dữ liệu có thể. Chọn "F1" để tiếp tục tắt (các) ổ đĩa logic Chọn "F2" để chấp nhận mất dữ liệu và bật lại (các) ổ đĩa logic

Tôi đã chọn F2 và RAID vẫn ổn và được gắn khi khởi động.

— Banjer
nguồn

1

cài đặt smartmontools. Gửi thư cho bạn TRƯỚC một ổ đĩa không thành công.

— Stephan
nguồn

2

~ 30% thời gian. SMART không phải là viên đạn bạc.

— HoplessN00b