Tôi cần thay thế munin bằng thứ gì đó có khả năng mở rộng hơn [đóng]


8

Tôi đã sử dụng munin trên nhiều máy chủ trong nhiều năm rất thành công, tuy nhiên với hơn 100 nút munin và khi có tải trên máy khách, quá trình xử lý đã hết thời gian.

Tôi đã thực hiện một số thay đổi mở rộng cho công việc định kỳ và số lượng quy trình khách hàng và giảm số lượng plugin đang chạy, v.v. nhưng tôi đã quyết định tìm kiếm một giải pháp thay thế có kiến ​​trúc có thể mở rộng hơn.

Bất kỳ đề xuất hoặc kinh nghiệm sẽ được hoan nghênh. Về cơ bản, tôi quan tâm đến các số liệu máy chủ mà taxi được sử dụng để lập kế hoạch dung lượng và chẩn đoán sử dụng tài nguyên. (chúng tôi có nagios để cảnh báo)


Câu trả lời:


8

Có vẻ như bạn có thể có hai vấn đề

  1. Trên máy chủ theo dõi của bạn, việc ghi lại số liệu cho nhiều máy chủ yêu cầu nhiều i / o ngẫu nhiên hơn so với lưu trữ của bạn có thể cung cấp. Ngay cả khi tất cả các số liệu của bạn đang được ghi vào đĩa, máy chủ có thể quá tải để thực sự tạo biểu đồ từ chúng.
  2. Trên các máy khách của bạn đang được theo dõi, các plugin thu thập các số liệu quá tốn CPU và bộ nhớ và không hoàn thành việc thu thập dữ liệu kịp thời khi các máy khách đang tải nặng.

Tôi đã sử dụng Munin trong quá khứ, nhưng tôi hiện đang sử dụng colld . Các tác giả của colld đã đặt rất nhiều suy nghĩ và nỗ lực để giải quyết những vấn đề này. Họ có một hệ thống được thiết kế tốt để ghi dữ liệu vào các tệp RRD để đảm bảo bạn không bị mất dữ liệu và có thể tạo các biểu đồ cập nhật. Ngoài ra còn có hỗ trợ cho RRDCacheD. Trình nền và trình cắm chính thức được viết bằng C, vì vậy chúng sử dụng ít bộ nhớ hoặc thời gian CPU. Trên các hệ thống máy khách của tôi, nó sử dụng ít hơn 2 MB RAM và khoảng một phần tư thời gian CPU mỗi phút. Trên máy chủ giám sát của tôi, nó đang sử dụng 20 MB RAM và hai phần ba thời gian CPU mỗi phút. Hãy nhớ rằng tất cả các số liệu của tôi đang được thu thập và gửi đến máy chủ theo dõi của tôi cứ sau mười giây, thay vì cứ sau vài phút như munin.


2
munin hiện đã hỗ trợ sơ bộ cho rrdcached. Nó đòi hỏi một chút nỗ lực hơn so với cài đặt mặc định. Đây không phải là một cuộc bỏ phiếu cho hoặc chống lại munin / colld, tôi chỉ thêm điều này để giúp bất cứ ai đang vật lộn với thiết lập munin và không mất thời gian thay đổi hệ thống.
dfc

3

Mặc dù là công cụ tuyệt vời, Munin và các tiền tuyến RRDTool khác (như Cacti hoặc Ganglia) đã biết các vấn đề i / o và rất khó để mở rộng quy mô khi bạn theo dõi hàng loạt các nút.

Có một số kỹ thuật để đối phó với nút cổ chai i / o này. Một trong những điều này là phát tán ghi trên một số lượng lớn đĩa để giảm i / o trong mỗi đĩa. Mặt khác, nhiều sysadins sử dụng các hệ thống tập tin tmpfs để giải quyết vấn đề này. RRDCached cũng là một lựa chọn gần đây và tốt để giải quyết vấn đề này và tôi khuyên bạn nên xem qua các slide này .

Tôi không quen thuộc với Munin, nhưng Cacti có plugin Boost . Plugin này lưu trữ dữ liệu trong bộ nhớ và thực hiện cập nhật hàng loạt và theo yêu cầu vào đĩa, thay vì ghi riêng lẻ, do đó giảm i / o. Tôi khá chắc chắn rằng Munin cũng có một cái gì đó như thế này.

Nếu bạn có thể đủ khả năng, đĩa SSD cũng là lựa chọn tốt.

Cuối cùng nhưng không kém phần quan trọng, bạn cũng có thể xem qua Reconnoiter . Recconoiter là một công cụ phát hiện / vẽ đồ thị / xu hướng lỗi hoàn toàn mới. Không giống như hầu hết các công cụ xu hướng, Reconnoiter không dựa trên RRDTool và cố gắng giải quyết vấn đề cụ thể này. Tôi không sử dụng Reconnoiter trong sản xuất, nhưng tôi đã thực hiện một số thử nghiệm, và mặc dù vẫn hơi "xanh", trông có vẻ rất hứa hẹn, đặc biệt là về khả năng mở rộng của nó.

Hi vọng điêu nay co ich!


Zabbix cũng không sử dụng RRD, nó sử dụng một phụ trợ như MySQL hoặc Postgres. Nếu bạn nhận được mẫu của mình đúng và không giám sát những thứ vô dụng, bạn có thể dễ dàng mở rộng quy mô.
coredump

2

Kiểm tra Zabbix . Nó là một trong những công cụ giám sát hiệu suất nguồn mở tốt nhất hiện có. Nó có quy mô tốt và đã được sử dụng trong môi trường với hàng ngàn máy tính.


0

Marco Ramos đưa ra một số lời khuyên vững chắc. Tôi muốn thêm một số giải thích, tuy nhiên: vấn đề lớn với munin là lịch trình thu thập cố định trong 5 phút. Nếu tất cả các nút không trả về kết quả trong cửa sổ 5 phút, bạn sẽ bắt đầu bỏ học. Đây là vấn đề lớn nhất với munin.

Các công cụ dựa trên rrdtool khác như Ganglia không bị khóa trong cùng cửa sổ cập nhật 5 phút này vì chúng không thăm dò tất cả các nguồn dữ liệu theo cùng một cách liên tục như munin.

Tôi khuyên bạn nên xem Ganglia vì nó thường có vẻ mở rộng tốt (mặc dù bạn cần phải tắt bộ sưu tập dữ liệu phát đa hướng để cài đặt ganglia lớn). Tôi nghi ngờ bạn có thể đi một chặng đường dài với ganglia trước khi bạn cần bắt đầu lo lắng về việc rrdtool là điểm nghẹt thở. Tại thời điểm đó, bạn có thể thực hiện các loại mà Marco gợi ý, như sử dụng ổ SSD.


Thật vậy, bạn đã đúng, điều tương tự cũng xảy ra với Cacti.
Marco Ramos

0

Tôi sẽ thay thế Munin w / Ganglia, Munin giết chết máy chủ của tôi vì vậy tôi sẽ thử Ganglia và xem nó mở rộng như thế nào.


Làm thế nào nó đi? Tôi quan tâm đến việc thay thế như vậy bản thân mình ...
thanasisk

Tôi thích đồ thị của Munin nhưng Ganglia hoạt động tốt. Kể từ khi tôi rời bỏ công việc nhưng khi tôi rời đi, tôi đã thay thế Munin bằng Ganglia. Với bản phát hành mới nhất của Munin, tôi có xu hướng nghĩ rằng họ đã điều chỉnh việc sử dụng bộ nhớ. Tôi cũng không ngần ngại sử dụng, đó là vấn đề ưu tiên tôi đoán.
luckytaxi
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.