Những người khác đề nghị gửi tin nhắn thường xuyên nói rằng mọi thứ đều ổn, nhưng cá nhân tôi không đồng ý với điều đó. Giám sát nên im lặng trừ khi có vấn đề và không bao giờ nên dựa vào người dùng nhận thấy có gì đó không ổn, như "Ồ, tôi đã không nhận được e-mail hàng ngày đó trong vài ngày." Đặc biệt nếu bạn có nhiều người trả lời thông báo, mỗi người có thể nghĩ rằng người kia đã xóa tin nhắn "Tôi ổn" hàng ngày.
Chúng tôi có một dịch vụ bên ngoài (trong đó có hàng trăm, nhưng chúng tôi sử dụng wormly ) để thực hiện kiểm tra HTTP của máy chủ giám sát của chúng tôi để đảm bảo rằng nó lên và có thể đạt tới Internet. Đó là mối quan tâm chính của chúng tôi để theo dõi nó. Sau đó, máy chủ Nagios của chúng tôi giám sát tất cả các máy chủ Nagios của khách hàng.
Nhưng, bạn đưa ra một điểm tốt. Có lẽ chúng ta nên thêm một URL HTTP để kiểm tra hàng đợi hậu tố và nếu nó hiển thị số lượng tin nhắn bất thường, điều đó có nghĩa là nó có bất kỳ trong hàng đợi, sau đó đưa ra cảnh báo. Một lựa chọn khác là sử dụng các phương thức khác nhau để cảnh báo, giả sử một đại lý phân phối SMS không phải là SMTP cũng như SMTP mà chúng tôi hiện đang sử dụng.
Trong trường hợp của chúng tôi, tôi không thể nhớ rằng chúng ta đã từng có máy chủ thư chết. Tất nhiên, tất cả các máy chủ thư được sử dụng để gửi cảnh báo Nagios, vì vậy cấu hình rất đơn giản và hầu như không bao giờ thay đổi.