Nagios kiểm tra tần suất dịch vụ dựa trên tình trạng dịch vụ

Đang cố gắng phát hiện sự cố đĩa bằng cách theo dõi si, do đó, từ lệnh vmstat. Tôi đang theo dõi các dịch vụ khác bằng cách sử dụng nagios và kiểm tra dịch vụ xảy ra sau mỗi 5 phút. Đối với dịch vụ đập này, tôi muốn rằng nagios nên kiểm tra sau mỗi 20 phút và nếu trạng thái được trả về không ổn (nghĩa là cảnh báo hoặc quan trọng) thì nên kiểm tra dịch vụ đập sau mỗi 3 phút cho đến khi trạng thái được dịch vụ trả về. Thời gian kiểm tra dịch vụ cho tất cả các dịch vụ khác vẫn không thay đổi.

Tôi mới biết đến Nagios và bất kỳ trợ giúp nào về điều này sẽ thực sự được đánh giá cao.

nagios

— APZ
nguồn

Giả sử rằng lệnh interval_lengthđược đặt thành 60 theo mặc định:

$ grep interval_length /usr/local/nagios/etc/nagios.cfg 
# This value works of the interval_length you specify later.  If you leave
# actual seconds rather than a multiple of the interval_length variable.
interval_length=60

Đối với các dịch vụ đặc biệt, bạn cần xác định một mẫu khác cho nó trong /usr/local/nagios/etc/objects/templates.cfg:

define service{
        name                            special-service    
        ...
        max_check_attempts              3           
        normal_check_interval           20         
        retry_check_interval            3           
        notification_interval           60   
        ...   
        }

Hãy chú ý đến:

normal_check_interval: dịch vụ này được kiểm tra cứ sau 20 phút trong điều kiện bình thường
retry_check_interval: số phút chờ đợi trước khi lên lịch kiểm tra lại khi dịch vụ đã thay đổi sang trạng thái không ổn. Lưu ý rằng nếu dịch vụ đã được thử lại max_attemptsthời gian mà không thay đổi trạng thái, dịch vụ sẽ trở lại được lên lịch theo check_intervaltỷ lệ.

và sử dụng mẫu này cho dịch vụ của bạn:

define service{
    use                     special-service
    host_name               xx
    service_description     yy
    check_command           zz
    contact_groups          admins
    }

Bạn cũng có thể cần xác định mức tăng dịch vụ để thay đổi notification_intervaldựa trên trạng thái dịch vụ, đại loại như sau:

define serviceescalation{
    host_name               xx
    service_description     yy
    last_notification       0
    notification_interval   10
    escalation_options      [w,u,c]
    contact_groups          admins
    }

Điều này có nghĩa là dịch vụ leo thang này được sử dụng khi dịch vụ ở trạng thái CẢNH BÁO, KHÔNG GIỚI HẠN hoặc TIÊU CHUẨN. Và bây giờ bạn có một khoảng thời gian thông báo mới: 10 phút.

— lượng tử
nguồn