Những giá trị cảnh báo và quan trọng nào sẽ được sử dụng cho check_load?


13

Ngay bây giờ tôi đang sử dụng các giá trị này:

# y = c * p / 100
# y: nagios value
# c: number of cores
# p: wanted load procent

# 4 cores
# time        5 minutes    10 minutes     15 minutes
# warning:    90%          70%            50%
# critical:   100%         80%            60%
command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4

Nhưng những giá trị này chỉ được chọn gần như ngẫu nhiên.

Có ai có một số giá trị thử nghiệm?


2
Tôi nghĩ rằng KHÔNG có standardhoặc testedgiá trị. Nó phụ thuộc vào khối lượng công việc máy chủ dự kiến ​​của bạn. Nếu bạn mong đợi một tải cao, bạn nên tăng các giá trị. Nếu không, máy chủ của bạn sẽ luôn xuất hiện trong trạng thái quan trọng.
Khaled

Vâng, đó là vấn đề của tôi. Tôi liên tục nhận được thông báo quan trọng. Tôi có nên nhân mọi thứ với 3?
Sandra

Câu trả lời:


9

Tải Linux thực sự đơn giản. Mỗi số avg tải là tổng của tất cả tải avg của lõi. I E.

 1 min load avg = load_core_1 + load_core_2 + ... + load_core_n
 5 min load avg = load_core_1 + load_core_2 + ... + load_core_n
15 min load avg = load_core_1 + load_core_2 + ... + load_core_n

nơi 0 < avg load < infinity.

Vì vậy, nếu tải là 1 trên máy chủ 4 lõi, thì điều đó có nghĩa là mỗi lõi được sử dụng 25% hoặc một lõi là 100% dưới tải. Tải 4 có nghĩa là cả 4 lõi đều tải dưới 100%. Tải> 4 nghĩa là máy chủ cần nhiều lõi hơn.

check_load Giờ có rồi

 -r, --percpu
    Divide the load averages by the number of CPUs (when possible)

điều đó có nghĩa là khi được sử dụng, bạn có thể nghĩ máy chủ của mình chỉ có một lõi và do đó viết phần trăm trực tiếp mà không nghĩ đến số lượng lõi. Với -rcác cảnh báo và khoảng thời gian quan trọng trở thành 0 <= load avg <= 1. I E. bạn không phải sửa đổi các giá trị cảnh báo và quan trọng của mình từ máy chủ này sang máy chủ khác.

OP có 5,10,15 cho các khoảng. Điều đó là sai. Đó là 1,5,15.


27

Mặc dù đây là một bài viết cũ, trả lời ngay bây giờ vì tôi biết các giá trị ngưỡng check_load là vấn đề đau đầu đối với người mới ..;)

Một cảnh báo, nếu CPU là 70% trong 5 phút, 60% cho 10 phút, 50% cho 15 phút. Một cảnh báo quan trọng, nếu CPU là 90% trong 5 phút, 80% cho 10 phút, 70% cho 15 phút.

*command[check_load]=/usr/local/nagios/libexec/check_load -w 0.7,0.6,0.5 -c 0.9,0.8,0.7*

Tất cả những phát hiện của tôi về tải CPU:

"Tải" nghĩa là gì: Wikipedia nói:

Tất cả các hệ thống giống như Unix và Unix tạo ra một số liệu gồm ba số "tải trung bình" trong kernel. Người dùng có thể dễ dàng truy vấn kết quả hiện tại từ hệ vỏ Unix bằng cách chạy lệnh thời gian hoạt động:

$ uptime
14:34:03 up 10:43,  4 users,  load average: 0.06, 0.11, 0.09

Từ mức trung bình tải đầu ra ở trên: 0.06, 0.11, 0.09có nghĩa là (trên hệ thống CPU đơn):

  • trong phút cuối, CPU đã bị giảm 6%
  • trong 5 phút cuối, CPU đã bị giảm 11%
  • trong 15 phút cuối, CPU đã bị tải 9%

.

$ uptime
14:34:03 up 10:43,  4 users,  load average: 1.73, 0.50, 7.98

Trung bình tải trên của 1.73 0.50 7.98một hệ thống CPU đơn như:

  • trong phút cuối, CPU đã bị quá tải 73% (1 CPU với 1,73 quy trình có thể chạy được, do đó 0,73 quy trình phải chờ đến lượt)
  • trong 5 phút cuối, CPU đã bị tải xuống 50% (không có quá trình nào phải chờ đến lượt)
  • trong 15 phút cuối, CPU đã bị quá tải 698% (1 CPU với 7,98 quy trình có thể chạy được, do đó 6,98 quy trình phải chờ đến lượt)

Tính toán giá trị ngưỡng Nagios:

Đối với thiết lập tải CPU Nagios, bao gồm cảnh báo và quan trọng:

y = c * p / 100

Ở đâu: y = nagios value c = number of cores p = wanted load procent

cho hệ thống 4 lõi:

time      5 min  10 min    15 min
warning:  90%    70%       50%
critical: 100%   80%       60%

command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4

Đối với một hệ thống lõi đơn:

y = p / 100

Ở đâu: y = nagios value p = wanted load procent

time       5 min  10 min    15 min
warning:   70%    60%       50%
critical:  90%    80%       70%

command[check_load]=/usr/local/nagios/libexec/check_load -w 0.7,0.6,0.5 -c 0.9,0.8,0.7

Một bài báo trắng tuyệt vời về phân tích tải CPU của Tiến sĩ Gunther http://www.teamquest.com/pdfs/whitepaper/ldavg1.pdf Trong bài viết trực tuyến này, Tiến sĩ Gunther đã đào sâu vào nhân UNIX để tìm hiểu cách tải trung bình ( Những chuyến đi của LA LA được tính toán và mức độ phù hợp của chúng như là số liệu lập kế hoạch năng lực.


2
thời gian nên là 1,5 và 15 phút
từ

3

Trừ khi các máy chủ được đề cập có khối lượng công việc không đồng bộ trong đó độ sâu hàng đợi là chỉ số dịch vụ quan trọng để quản lý thì trung thực nó thậm chí không có giá trị giám sát tải trung bình. Nó chỉ là một sự phân tâm từ các số liệu quan trọng như thời gian phục vụ (thời gian phục vụ và thời gian phục vụ).


2

Một bổ sung tốt Nagios là một công cụ như Munin hoặc Cacti, họ sẽ vẽ biểu đồ các loại khối lượng công việc khác nhau mà máy chủ của bạn đang gặp phải. Có thể là load_alusive, sử dụng cpu, io đĩa hoặc một cái gì đó khác.

Sử dụng thông tin này sẽ dễ dàng hơn để đặt các giá trị ngưỡng tốt trong Nagios.


1

Bạn có biết mức tải trung bình mà hiệu suất hệ thống của bạn bị ảnh hưởng không? Chúng tôi đã có máy chủ ở công việc cuối cùng của tôi sẽ luôn ở mức trung bình tải 35-40, nhưng vẫn đáp ứng. Đó là một phép đo bạn phải thực hiện một chút công việc thám tử để có được con số chính xác.

Thay vào đó, bạn có thể muốn đo một số số liệu khác trên hệ thống, như thời gian kết nối trung bình cho SSH hoặc http; đây có thể là một chỉ báo tốt hơn về mức độ tải hệ thống của bạn.


2
Trung bình tải của ví dụ 35 thực sự có nghĩa là gì? Số lượng lõi cpu có làm nên sự khác biệt về số lượng không?
Sandra

0

Để mở rộng câu trả lời của Invent Sekar: Khi sử dụng check_load và tỷ lệ phần trăm tôi tin rằng bạn sẽ cần Đối số dòng lệnh "-r" cùng với các đối số khác.

Ví dụ:

command[check_load]=/usr/local/nagios/libexec/check_load -r -w 0.7,0.6,0.5 -c 0.9,0.8,0.7
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.