Tải tính lạ avg trên Linux Ubuntu


9

Trong vài ngày qua, tôi đã cố gắng để hiểu được sự kỳ lạ đang xảy ra trong cơ sở hạ tầng của chúng tôi nhưng tôi đã không thể hình dung được điều đó vì vậy tôi sẽ chuyển sang các bạn để cho tôi một số gợi ý.

Tôi đã nhận thấy trong Graphite, tăng đột biến trong load_avg đang diễn ra với tần suất chết người khoảng 2 giờ một lần - không chính xác là 2 giờ nhưng nó rất đều đặn. Tôi đang đính kèm một ảnh chụp màn hình này tôi đã lấy từ Graphite

Tải Averag - Bấm để phóng to

Tôi đã bị mắc kẹt trong việc điều tra việc này - sự đều đặn của điều này khiến tôi nghĩ rằng đó là một loại công việc định kỳ hoặc một cái gì đó tương tự nhưng KHÔNG CÓ cronjobs chạy trên các máy chủ này - thực sự đây là những máy ảo chạy trên đám mây Rackspace. Những gì tôi đang tìm kiếm là một số loại dấu hiệu có thể gây ra những vấn đề này và làm thế nào để điều tra thêm.

Các máy chủ khá nhàn rỗi - đây là một môi trường dàn dựng nên hầu như không có lưu lượng truy cập đến / sẽ không có tải cho chúng. Đây là tất cả 4 máy ảo ảo. Điều tôi biết chắc chắn là chúng tôi sẽ lấy một loạt các mẫu Graphite cứ sau 10 giây, nhưng nếu đó là nguyên nhân gây ra tải thì tôi hy vọng nó sẽ liên tục cao thay vì cứ sau 2 giờ xảy ra sóng trong các máy chủ khác nhau.

Bất kỳ trợ giúp làm thế nào để điều tra này sẽ được đánh giá rất cao!


Dưới đây là một số dữ liệu từ sar cho app01 - đó là mũi nhọn màu xanh đầu tiên trên hình trên - tôi không thể rút ra bất kỳ kết luận nào từ dữ liệu. Cũng không phải là các byte ghi tăng đột biến mà bạn thấy xảy ra cứ sau nửa giờ (KHÔNG MERYI 2 GIỜ) là do đầu bếp-khách hàng chạy cứ sau 30 phút. Tôi sẽ cố gắng thu thập thêm dữ liệu mặc dù tôi đã thực hiện điều đó nhưng thực sự không thể rút ra bất kỳ kết luận nào từ những điều đó.

LOAD

09:55:01 PM   runq-sz  plist-sz   ldavg-1   ldavg-5  ldavg-15   blocked
10:05:01 PM         0       125      1.28      1.26      0.86         0
10:15:01 PM         0       125      0.71      1.08      0.98         0
10:25:01 PM         0       125      4.10      3.59      2.23         0
10:35:01 PM         0       125      0.43      0.94      1.46         3
10:45:01 PM         0       125      0.25      0.45      0.96         0
10:55:01 PM         0       125      0.15      0.27      0.63         0
11:05:01 PM         0       125      0.48      0.33      0.47         0
11:15:01 PM         0       125      0.07      0.28      0.40         0
11:25:01 PM         0       125      0.46      0.32      0.34         0
11:35:01 PM         2       130      0.38      0.47      0.42         0
11:45:01 PM         2       131      0.29      0.40      0.38         0
11:55:01 PM         2       131      0.47      0.53      0.46         0
11:59:01 PM         2       131      0.66      0.70      0.55         0
12:00:01 AM         2       131      0.81      0.74      0.57         0

CPU

09:55:01 PM     CPU     %user     %nice   %system   %iowait    %steal     %idle
10:05:01 PM     all      5.68      0.00      3.07      0.04      0.11     91.10
10:15:01 PM     all      5.01      0.00      1.70      0.01      0.07     93.21
10:25:01 PM     all      5.06      0.00      1.74      0.02      0.08     93.11
10:35:01 PM     all      5.74      0.00      2.95      0.06      0.13     91.12
10:45:01 PM     all      5.05      0.00      1.76      0.02      0.06     93.10
10:55:01 PM     all      5.02      0.00      1.73      0.02      0.09     93.13
11:05:01 PM     all      5.52      0.00      2.74      0.05      0.08     91.61
11:15:01 PM     all      4.98      0.00      1.76      0.01      0.08     93.17
11:25:01 PM     all      4.99      0.00      1.75      0.01      0.06     93.19
11:35:01 PM     all      5.45      0.00      2.70      0.04      0.05     91.76
11:45:01 PM     all      5.00      0.00      1.71      0.01      0.05     93.23
11:55:01 PM     all      5.02      0.00      1.72      0.01      0.06     93.19
11:59:01 PM     all      5.03      0.00      1.74      0.01      0.06     93.16
12:00:01 AM     all      4.91      0.00      1.68      0.01      0.08     93.33

Tôi đang

09:55:01 PM       tps      rtps      wtps   bread/s   bwrtn/s
10:05:01 PM      8.88      0.15      8.72      1.21    422.38
10:15:01 PM      1.49      0.00      1.49      0.00     28.48
10:25:01 PM      1.54      0.00      1.54      0.03     29.61
10:35:01 PM      8.35      0.04      8.31      0.32    411.71
10:45:01 PM      1.58      0.00      1.58      0.00     30.04
10:55:01 PM      1.52      0.00      1.52      0.00     28.36
11:05:01 PM      8.32      0.01      8.31      0.08    410.30
11:15:01 PM      1.54      0.01      1.52      0.43     29.07
11:25:01 PM      1.47      0.00      1.47      0.00     28.39
11:35:01 PM      8.28      0.00      8.28      0.00    410.97
11:45:01 PM      1.49      0.00      1.49      0.00     28.35
11:55:01 PM      1.46      0.00      1.46      0.00     27.93
11:59:01 PM      1.35      0.00      1.35      0.00     26.83
12:00:01 AM      1.60      0.00      1.60      0.00     29.87

MẠNG:

10:25:01 PM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s
10:35:01 PM        lo      8.36      8.36      2.18      2.18      0.00      0.00      0.00
10:35:01 PM      eth1      7.07      4.77      5.24      2.42      0.00      0.00      0.00
10:35:01 PM      eth0      2.30      1.99      0.24      0.51      0.00      0.00      0.00
10:45:01 PM        lo      8.35      8.35      2.18      2.18      0.00      0.00      0.00
10:45:01 PM      eth1      3.69      3.45      0.65      2.22      0.00      0.00      0.00
10:45:01 PM      eth0      1.50      1.33      0.15      0.36      0.00      0.00      0.00
10:55:01 PM        lo      8.36      8.36      2.18      2.18      0.00      0.00      0.00
10:55:01 PM      eth1      3.66      3.40      0.64      2.19      0.00      0.00      0.00
10:55:01 PM      eth0      0.79      0.87      0.08      0.29      0.00      0.00      0.00
11:05:01 PM        lo      8.36      8.36      2.18      2.18      0.00      0.00      0.00
11:05:01 PM      eth1      7.29      4.73      5.25      2.41      0.00      0.00      0.00
11:05:01 PM      eth0      0.82      0.89      0.09      0.29      0.00      0.00      0.00
11:15:01 PM        lo      8.34      8.34      2.18      2.18      0.00      0.00      0.00
11:15:01 PM      eth1      3.67      3.30      0.64      2.19      0.00      0.00      0.00
11:15:01 PM      eth0      1.27      1.21      0.11      0.34      0.00      0.00      0.00
11:25:01 PM        lo      8.32      8.32      2.18      2.18      0.00      0.00      0.00
11:25:01 PM      eth1      3.43      3.35      0.63      2.20      0.00      0.00      0.00
11:25:01 PM      eth0      1.13      1.09      0.10      0.32      0.00      0.00      0.00
11:35:01 PM        lo      8.36      8.36      2.18      2.18      0.00      0.00      0.00
11:35:01 PM      eth1      7.16      4.68      5.25      2.40      0.00      0.00      0.00
11:35:01 PM      eth0      1.15      1.12      0.11      0.32      0.00      0.00      0.00
11:45:01 PM        lo      8.37      8.37      2.18      2.18      0.00      0.00      0.00
11:45:01 PM      eth1      3.71      3.51      0.65      2.20      0.00      0.00      0.00
11:45:01 PM      eth0      0.75      0.86      0.08      0.29      0.00      0.00      0.00
11:55:01 PM        lo      8.30      8.30      2.18      2.18      0.00      0.00      0.00
11:55:01 PM      eth1      3.65      3.37      0.64      2.20      0.00      0.00      0.00
11:55:01 PM      eth0      0.74      0.84      0.08      0.28      0.00      0.00      0.00

Đối với những người tò mò về cronjobs. Đây là tóm tắt của tất cả các cronjobs được thiết lập trên máy chủ (Tôi đã chọn app01 nhưng điều này cũng xảy ra trên một vài máy chủ khác với cùng một cronjobs được thiết lập)

$ ls -ltr /etc/cron*
-rw-r--r-- 1 root root  722 Apr  2  2012 /etc/crontab

/etc/cron.monthly:
total 0

/etc/cron.hourly:
total 0

/etc/cron.weekly:
total 8
-rwxr-xr-x 1 root root 730 Dec 31  2011 apt-xapian-index
-rwxr-xr-x 1 root root 907 Mar 31  2012 man-db

/etc/cron.daily:
total 68
-rwxr-xr-x 1 root root  2417 Jul  1  2011 popularity-contest
-rwxr-xr-x 1 root root   606 Aug 17  2011 mlocate
-rwxr-xr-x 1 root root   372 Oct  4  2011 logrotate
-rwxr-xr-x 1 root root   469 Dec 16  2011 sysstat
-rwxr-xr-x 1 root root   314 Mar 30  2012 aptitude
-rwxr-xr-x 1 root root   502 Mar 31  2012 bsdmainutils
-rwxr-xr-x 1 root root  1365 Mar 31  2012 man-db
-rwxr-xr-x 1 root root  2947 Apr  2  2012 standard
-rwxr-xr-x 1 root root   249 Apr  9  2012 passwd
-rwxr-xr-x 1 root root   219 Apr 10  2012 apport
-rwxr-xr-x 1 root root   256 Apr 12  2012 dpkg
-rwxr-xr-x 1 root root   214 Apr 20  2012 update-notifier-common
-rwxr-xr-x 1 root root 15399 Apr 20  2012 apt
-rwxr-xr-x 1 root root  1154 Jun  5  2012 ntp

/etc/cron.d:
total 4
-rw-r--r-- 1 root root 395 Jan  6 18:27 sysstat
$ sudo ls -ltr /var/spool/cron/crontabs 
total 0
$

Như bạn có thể thấy không có cronjobs GIỜ. Chỉ hàng ngày / hàng tuần, vv

Tôi đã thu thập được một loạt các số liệu thống kê (vmstat, mpstat, iuler) - tuy nhiên tôi đang cố gắng Tôi không thể thấy bất kỳ khách hàng tiềm năng nào có thể đề xuất bất kỳ thành phần VM nào hoạt động sai ... Tôi bắt đầu nghiêng về các vấn đề tiềm ẩn tại hypanneror. Hãy xem số liệu thống kê Các ý chính bắt đầu với đầu ra sar -q trong khoảng thời gian "vi phạm" và sau đó bạn có thể thấy vm, mp và iostats ....

Về cơ bản nó vẫn còn là một bí ẩn đối với tôi ...


Bạn có bất kỳ dữ liệu tương tác nào bạn có thể chia sẻ để điều tra thêm không (ví dụ: màn hình 'top', 'htop' và 'iotop' trong các đợt tăng tải định kỳ) là gì? Ngoài ra, bạn đã kiểm tra nhật ký ứng dụng của bạn trong thời gian được đề cập để xem liệu chúng có biểu hiện bất kỳ hành vi kỳ quặc nào không? Ngoài ra, bạn có bất kỳ máy chủ nào có cấu hình tương tự không được lưu trữ trên cơ sở hạ tầng đám mây công cộng không và nếu có, chúng có biểu hiện hành vi tương tự không?
esquireofoz

Về mặt nhật ký ứng dụng - không có gì xảy ra. Các mục nhật ký duy nhất mà nó chứa là các kiểm tra giám sát đang diễn ra mỗi phút - về cơ bản hệ thống giám sát truy cập vào trang chính và báo cáo mã kết quả - ngoài các nhật ký đó hoàn toàn trống rỗng. Ngoài ra, như bạn có thể thấy có rất nhiều máy chủ ở trên - điều này đang xảy ra trên tất cả chúng (redis, máy chủ ứng dụng, máy chủ đầu bếp, v.v.)
milosgajdos

Bạn đã thử sử dụng psacct để thu hẹp nó chưa?
HTTP500

bạn giả định tính đều đặn, nhưng dữ liệu bạn hiển thị không hiển thị bất kỳ sự đột biến nào xảy ra thường xuyên .. vui lòng cụ thể hơn về khoảng thời gian chính xác mà nó hiển thị đều đặn tại (trong vài ngày có lẽ? trên hình ảnh, không có sự đều đặn.) bạn có thể chạy "top -n 1" cứ sau 1 triệu hoặc hơn và giữ chúng trong một tệp, và điều này có thể giúp xem các quy trình khác đang cạnh tranh cho cpu cùng lúc xảy ra đột biến. Nếu App1 là một ứng dụng phải đối mặt với internet, có lẽ đó chỉ là một người nào đó truy cập vào nó và buộc hành vi đó? thêm một bản ghi nhật ký "netstat -an" thông thường (mỗi phút?)
Olivier Dulac

Bạn đã nhìn thấy ảnh chụp màn hình đính kèm? Nếu điều đó không hiển thị thường xuyên, tôi không biết những gì. Bây giờ tôi đã tăng thời gian lấy mẫu cho sar vì vậy tôi sẽ lấy mẫu cứ sau 5 phút. Sự đều đặn trên pic là rõ ràng hơn - nó xảy ra cứ sau hai giờ. Đây là một môi trường dàn dựng hoàn toàn KHÔNG có lưu lượng truy cập - như bạn chắc chắn có thể thấy từ các đầu ra sar ở trên cho các số liệu thống kê mạng.
milosgajdos

Câu trả lời:


3

Hấp dẫn.

Đầu tiên, bạn có thể tăng tần suất đăng nhập sar. Thay vì 10 phút, hãy cố gắng đăng nhập mỗi phút. Các cronjob sysstat là cấu hình.

Tiếp theo, hãy thử kịch bản ra các lệnh sau.

ps auxf > /tmp/ps.out
vmstat 1 50 > /tmp/vm.out
mpstat -P ALL 1 50 > /tmp/mp.out
iostat -xdk 1 50 > /tmp/io.out
cat /proc/meminfo > /tmp/meminfo.out

Tập hợp bộ dữ liệu này ở mỗi lần lặp khi trung bình tải tăng theo cách thủ công hoặc thông qua cron. Sẽ tốt hơn nếu có dữ liệu của ít nhất một ngày làm việc.

Bây giờ, tôi hiểu rằng các máy chủ không hoạt động nhưng vẫn còn một số ứng dụng phải chạy. Họ là ai?

Có thể là bạn có thể chạy một số công cụ định hình, như perf hoặc oprofile.

Có bất kỳ thành phần phần cứng máy chủ đang được thay đổi? Thậm chí một cái gì đó vô hại như nâng cấp firmware hoặc nâng cấp phần mềm.

Này, một câu hỏi. Lịch trình bạn đang chạy là gì. Tôi tin rằng đó là cfq, bất kỳ cơ hội nào bạn có thể thay đổi nó thành noop. Đặt elevator=nooptham số dòng lệnh kernel và khởi động lại hệ thống và xem liệu nó có cải thiện nó không.


Tôi đã thêm một chỉnh sửa nhỏ về lịch trình. vui lòng xem kết quả
Soham Chakraborty

1

Đăng nhập quy trình hàng đầu

Vì việc xảy ra rất thường xuyên, nên thiết lập công việc định kỳ để theo dõi các quy trình hàng đầu trong khoảng thời gian đó

#app01
20-59 0/2 * * * root /usr/bin/top -b -n 1 | /usr/bin/head -n 15 >> /var/log/top.log

Thay đổi 20-59thành *sẽ đăng nhập toàn bộ giờ cho mỗi giờ số chẵn. Cron job sẽ chạy một lần mỗi phút trong cả hai trường hợp.

Bạn có thể muốn thêm tệp top.log vào vòng quay nhật ký để nó không chiếm hết dung lượng trong trường hợp bạn quên tắt nó.

Kiểm tra tệp nhật ký

Tìm kiếm mục nhật ký tập tin ở thời gian tải cao

Lấy ví dụ sau khi tải

10:25:01 PM         0       125      4.10      3.59      2.23         0

Làm

grep ' 22:2' /var/log/*
grep ' 22:2' /var/log/apache2/*

Điều đó sẽ hiển thị tất cả các mục nhật ký cho 22:2x:xx. Có thể phải bao gồm các thư mục đăng nhập khác.

CN ngày 6 tháng 1 21:00:07 2013: xvda w_await tăng đột biến

Biểu đồ xvda - Sự tăng vọt của w_await là vào Chủ Nhật ngày 6 tháng 1 21:00:07 2013 nhập mô tả hình ảnh ở đây


0

Một điều tôi chắc chắn sẽ kiểm tra:

  • Các biểu đồ vSphere cho cùng một mẫu, có thể một VM khác trên cùng một máy chủ đang ăn CPU (do đó tải trên VM của bạn tăng lên vì phải mất nhiều thời gian hơn để xử lý cùng một lượng dữ liệu với lưu lượng không đổi do thời gian CPU có sẵn ít hơn VM của bạn).

Chỉnh sửa: Không hiểu lần đầu tiên :) Bạn đang chạy trên Rackspace, do đó, không có quyền kiểm soát nào trên trình ảo hóa, nhưng có thể đáng để hỏi rackspace nếu họ có thể kiểm tra xem mô hình này có phổ biến trên các máy ảo khác trên cùng máy chủ không .


1
Tôi cũng nghi ngờ về điều đó - đây sẽ không phải là lần đầu tiên đám mây Rackspace gây ra một sự điên rồ nào đó. Tôi nghi ngờ họ giám sát bất kỳ máy chủ hypanneror nào của họ - ý tôi là về các máy ảo hoạt động sai, tuy nhiên tôi muốn loại trừ bất kỳ khả năng "nội bộ" nào trước khi tôi chuyển sang phương án cuối cùng - hỗ trợ Rackspace.
milosgajdos

Hiệu suất của trình ảo hóa có ảnh hưởng đến trung bình tải tự hiển thị của VM không? Điều này dẫn tôi đến suy nghĩ về cách tính trung bình tải. Đây có thể là một số hiệu ứng của tính năng tiết kiệm năng lượng xanh / năng lượng thay đổi định kỳ làm việc xung quanh để ít lõi hơn không biết đến HĐH? Hoặc làm thế nào về thay đổi động đồng hồ tốc độ dựa trên ví dụ đầu vào môi trường?
trp

Tải trung bình được tính bằng thuật toán lập lịch, nói một cách đơn giản, nếu bạn có 100 tác vụ trong hàng xử lý và trình ảo hóa có hiệu quả 100% khi thực hiện 10 tác vụ trong 1 giây, thì bạn cần 10 giây để thực hiện 100 tác vụ, nếu trình ảo hóa của bạn chỉ hiệu quả 50% (có thể là quá mức CPU), sẽ mất 20 giây để thực hiện cùng một lượng tác vụ, do đó dẫn đến tăng tải. Giải thích đầy đủ: blog.scoutapp.com/articles/2009/07/31/ trên
Martino Dino
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.