Lời chào hỏi,
Tôi muốn hỏi ý kiến tập thể và quan điểm về các hệ thống giám sát phân tán, bạn sử dụng cái gì và bạn biết cái gì có thể đánh dấu vào hộp của tôi?
Các yêu cầu khá phức tạp;
Không có điểm duy nhất của sự thất bại. Có thật không. Tôi chết thật rồi! Cần có khả năng chịu đựng sự cố một nút / nhiều nút, cả 'chủ' và 'công nhân' và bạn có thể cho rằng không có vị trí giám sát nào ("trang web") có nhiều nút trong đó hoặc nằm trên cùng một mạng. Do đó, điều này có thể loại trừ các kỹ thuật HA truyền thống như DRBD hoặc Keepalive.
Logic phân tán, tôi muốn triển khai hơn 5 nút trên nhiều mạng, trong nhiều trung tâm dữ liệu và trên nhiều lục địa. Tôi muốn chế độ xem "Mắt chim" của mạng và các ứng dụng của tôi từ góc độ của khách hàng, điểm thưởng cho logic giám sát không bị sa lầy khi bạn có hơn 50 nút hoặc thậm chí hơn 500 nút.
Cần có khả năng xử lý số lượng kiểm tra máy chủ / dịch vụ khá hợp lý, la Nagios, đối với số liệu sân bóng giả định 1500-2500 máy chủ và 30 dịch vụ trên mỗi máy chủ. Sẽ thật tuyệt nếu thêm nhiều nút giám sát cho phép bạn mở rộng quy mô tương đối tuyến tính, có lẽ trong 5 năm nữa tôi có thể tìm cách theo dõi 5000 máy chủ và 40 dịch vụ trên mỗi máy chủ! Thêm vào từ ghi chú của tôi ở trên về 'logic phân tán', thật tuyệt khi nói:
- Trong trường hợp bình thường, các kiểm tra này phải chạy trên $ n hoặc n% các nút giám sát.
- Nếu phát hiện lỗi, hãy chạy kiểm tra trên $ n hoặc n% nút khác, tương quan kết quả và sau đó sử dụng chúng để quyết định xem các tiêu chí đã được đáp ứng để đưa ra cảnh báo hay chưa.
Đồ thị và quản lý các tính năng thân thiện. Chúng tôi cần theo dõi SLA của mình và biết liệu các ứng dụng 'khả dụng cao' của chúng tôi có tăng 24x7 hay không là hữu ích. Lý tưởng nhất là giải pháp đề xuất của bạn nên báo cáo "ngoài luồng" với faff tối thiểu.
Phải có một API hoặc hệ thống plugin vững chắc để phát triển kiểm tra bespoke.
Cần phải hợp lý về cảnh báo. Tôi không nhất thiết phải biết (qua SMS, lúc 3 giờ sáng!) Rằng một nút giám sát cho rằng bộ định tuyến lõi của tôi bị hỏng. Tôi thực sự muốn biết liệu một tỷ lệ phần trăm xác định trong số họ có đồng ý rằng điều gì đó thú vị đang diễn ra hay không;) Về cơ bản, điều tôi đang nói ở đây là logic "đại biểu", hoặc ứng dụng của sự tỉnh táo vào sự điên rồ phân tán!
Tôi sẵn sàng xem xét cả hai tùy chọn thương mại và nguồn mở, mặc dù tôi muốn tránh xa phần mềm có giá hàng triệu bảng :-) Tôi cũng sẵn sàng chấp nhận có thể không có gì ngoài đó đánh dấu vào tất cả các hộp đó, nhưng Muốn hỏi tập thể mà.
Khi suy nghĩ về các nút giám sát và vị trí của chúng, hãy nhớ rằng hầu hết chúng sẽ là các máy chủ chuyên dụng trên các mạng ISP ngẫu nhiên và do đó phần lớn nằm ngoài tầm kiểm soát của tôi. Các giải pháp dựa trên nguồn cấp dữ liệu BGP và các trò hề mạng phức tạp khác có thể sẽ không phù hợp.
Tôi cũng nên chỉ ra rằng tôi đã đánh giá, triển khai hoặc sử dụng nhiều / tùy chỉnh hầu hết các hương vị nguồn mở trong quá khứ bao gồm Nagios, Zabbix và bạn bè - chúng thực sự không phải là công cụ tồi nhưng chúng hoàn toàn không phù hợp " phân phối "khía cạnh, đặc biệt liên quan đến logic được thảo luận trong câu hỏi của tôi và cảnh báo 'thông minh'.
Rất vui được làm rõ bất kỳ điểm nào được yêu cầu. Chúc mừng các chàng trai và các cô gái :-)