Làm thế nào để bạn theo dõi một máy chủ giám sát?


14

Vì vậy, chúng tôi chạy Groundworks (với Nagios) trên CentOS để giám sát các máy chủ và quy trình khác nhau của chúng tôi. Tôi đã thiết lập nó để tự động gửi email và tin nhắn SMS khi mọi thứ đạt đến trạng thái CẢNH BÁO hoặc TIÊU CHUẨN. Thông thường điều này hoạt động hoàn hảo. Tuy nhiên, hai lần chúng tôi gặp sự cố với Postfix trên máy chủ đó, nơi Postfix quyết định ngừng gửi email. Thời gian gần đây nhất kéo dài 4 ngày vì không ai trong chúng tôi nhận thấy.

Điều đó dẫn tôi đến một câu hỏi quan trọng: làm thế nào tôi phải giám sát máy chủ theo dõi của mình?


5
Quis custodiet ipsos custode?
James L

Heh. Vị thành niên. Chơi độc đáo.
Organicveggie

Ai theo dõi những người canh gác? : D
Florent Courtay

1
@ Wasteveggie, Máy chủ giám sát cũng là một máy chủ ... Bạn sẽ gặp phải vấn đề gì khi sử dụng máy chủ giám sát để giám sát máy chủ giám sát?
Pacerier

Câu trả lời:


12

Với một máy chủ giám sát thứ hai, tất nhiên. Cái thứ hai có thể đơn giản hơn nhiều, vì tất cả những gì nó cần làm là theo dõi cái thứ nhất. Và tất nhiên, nó nên được theo dõi bởi hệ thống giám sát chính.

Nếu nhóm của bạn là một phần của một tổ chức lớn hơn với cơ sở hạ tầng CNTT riêng biệt, bạn có thể sắp xếp để dịch vụ giám sát của nhóm khác theo dõi bạn.

Bạn cũng có thể đảm bảo rằng máy chủ gửi tin nhắn "không sao" mỗi ngày và có thói quen tìm kiếm nó. (Tất nhiên, điều đó chỉ hiệu quả nếu bạn chưa quá tải với các tin nhắn thông thường.)


14

Những người khác đề nghị gửi tin nhắn thường xuyên nói rằng mọi thứ đều ổn, nhưng cá nhân tôi không đồng ý với điều đó. Giám sát nên im lặng trừ khi có vấn đề và không bao giờ nên dựa vào người dùng nhận thấy có gì đó không ổn, như "Ồ, tôi đã không nhận được e-mail hàng ngày đó trong vài ngày." Đặc biệt nếu bạn có nhiều người trả lời thông báo, mỗi người có thể nghĩ rằng người kia đã xóa tin nhắn "Tôi ổn" hàng ngày.

Chúng tôi có một dịch vụ bên ngoài (trong đó có hàng trăm, nhưng chúng tôi sử dụng wormly ) để thực hiện kiểm tra HTTP của máy chủ giám sát của chúng tôi để đảm bảo rằng nó lên và có thể đạt tới Internet. Đó là mối quan tâm chính của chúng tôi để theo dõi nó. Sau đó, máy chủ Nagios của chúng tôi giám sát tất cả các máy chủ Nagios của khách hàng.

Nhưng, bạn đưa ra một điểm tốt. Có lẽ chúng ta nên thêm một URL HTTP để kiểm tra hàng đợi hậu tố và nếu nó hiển thị số lượng tin nhắn bất thường, điều đó có nghĩa là nó có bất kỳ trong hàng đợi, sau đó đưa ra cảnh báo. Một lựa chọn khác là sử dụng các phương thức khác nhau để cảnh báo, giả sử một đại lý phân phối SMS không phải là SMTP cũng như SMTP mà chúng tôi hiện đang sử dụng.

Trong trường hợp của chúng tôi, tôi không thể nhớ rằng chúng ta đã từng có máy chủ thư chết. Tất nhiên, tất cả các máy chủ thư được sử dụng để gửi cảnh báo Nagios, vì vậy cấu hình rất đơn giản và hầu như không bao giờ thay đổi.


2
Thông điệp OK thông thường không hữu ích: bạn không thể tạo điều kiện cho một người thực hiện hành động trong trường hợp không có kích thích.
Tim Williscroft

@Tim: Xin lỗi, nhưng "không có kích thích" không mô tả tình huống không nhận được email dự đoán. Trong trường hợp như vậy, tôi tin rằng tôi sẽ bị "kích thích" để điều tra lý do tại sao tin nhắn không đến. Nhưng có lẽ đó chỉ là tôi. :)
Steven Thứ Hai

1
Tôi nghĩ rằng tôi đang viết bằng các thuật ngữ tâm lý không có nghĩa là những gì bạn nghĩ. Tâm lý học hành vi và tâm lý hàng không có rất nhiều điều để nói với các kỹ sư hệ thống. Lĩnh vực này được phát triển mạnh mẽ trong Thế chiến II để đưa các phi hành đoàn 18-20 tuổi lái máy bay tối tân mà không gặp sự cố, và vẫn còn chú ý đến các nhiệm vụ quân sự thực sự của họ. Đó là lý do tại sao máy bay có đèn cảnh báo chính, không phải đèn "mọi thứ đều ổn". TLDR (Tôi không nghĩ từ đó có nghĩa là những gì bạn nghĩ)
Tim Williscroft

1
Tôi rất mạnh mẽ cho rằng các hệ thống không nên tạo ra tiếng ồn trừ khi có điều gì đó cần sự chú ý từ con người. Chúng tôi có sự chú ý hữu hạn và máy tính có thể dễ dàng áp đảo chúng tôi bằng những cú đánh nhỏ như "Tôi còn sống!". Thêm vào đó, những điều đi qua không cho thấy vấn đề khiến mọi người phải suy nghĩ về việc bỏ qua mọi thứ. Tôi làm việc rất chăm chỉ để đảm bảo rằng khi một thứ gì đó đến với con người, đó là thứ họ thực sự cần nhìn thấy. Tôi làm việc với một người có tất cả các loại nhật ký đến với anh ta mỗi ngày mà anh ta đánh giá. Tất nhiên, anh ấy rất bận nên không thể ra ngoài ăn trưa ...
Sean Reifschneider

1
Tôi đồng ý rằng các dịch vụ không nên gửi quá nhiều tin nhắn hoặc mọi người nhanh chóng bỏ qua chúng. Tuy nhiên, nếu hệ thống giám sát được thiết lập chính xác, bạn không nên nhận được nhiều tin nhắn. Tất nhiên, chúng tôi có chính sách về việc nhận thông báo từ Groundworks / Nagios, giúp dừng các tin nhắn trong một khoảng thời gian một cách hiệu quả. Nếu đó là sự cố ngừng hoạt động dài hạn, chúng tôi sẽ vô hiệu hóa việc giám sát hệ thống hoặc dịch vụ. Do đó, một tin nhắn "Tôi còn sống" hàng ngày thực sự khá hợp lý.
Organicveggie

5

Rõ ràng hậu tố của bạn cũng nên được theo dõi, nhưng đó là một chủ đề khác;)

Tôi sử dụng plugin kiểm tra Nagios cho Firefox , nó luôn chạy trong thanh trạng thái trên bất kỳ máy tính nào tôi sử dụng thường xuyên.

Ngoài ra, tôi có một tập lệnh tùy chỉnh trên máy chủ bên ngoài có chức năng lưu trữ máy chủ nagios và gửi SMS nếu nó không phản hồi với ping.

Cho đến nay (hơn 5 năm) nó hoạt động tốt (gõ vào gỗ).


2

Để theo dõi giám sát máy chủ (nagios trong trường hợp của chúng tôi), gói miễn phí hoặc cơ bản của Pingdom hoặc alertfox hoạt động rất tốt.


Gợi ý tốt. Nhưng trong trường hợp này, máy chủ giám sát của chúng tôi không thể truy cập bên ngoài tường lửa. Vì vậy, Pingdom và Alertfox không thực sự hiệu quả với chúng tôi.
Organicveggie

1

Điều đầu tiên: Hãy để nó gửi tin nhắn "Tôi còn sống" một hoặc hai lần một ngày. Thứ hai, tôi chạy một máy cũ chỉ với mục đích này, có modem GSM khác, UPS nhỏ, v.v. và kết nối chuyên dụng (trực tiếp) với máy chủ giám sát chính. Điều này cũng giúp với điểm ba là: Hãy chắc chắn rằng bạn kiểm tra trạng thái của các hệ thống giám sát của bạn thường xuyên. Hệ thống giám sát phụ trợ nhỏ hiển thị trang trạng thái của hệ thống chính trong văn phòng của tôi mọi lúc.


1

Nếu máy chủ Giám sát của bạn có thể truy cập từ internet, bạn nên theo dõi bởi nhà cung cấp bên ngoài (ví dụ: websitepulse et. Al.).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.