Tôi đã thấy một vài báo cáo lỗi và câu hỏi (trên stackexchange và các nơi khác) liên quan đến một lời cằn nhằn "BUG: soft lockup - CPU#<n> stuck for <dt>s!"
. Cho đến nay, tôi không tìm thấy bất kỳ manh mối nào về việc phải làm hoặc thử (thay vào đó, các manh mối tôi đã tìm thấy và theo dõi đã không ngăn chặn điều này xảy ra). Tôi quan tâm hơn về điều này bởi vì:
- tần suất của những sự kiện này dường như đã tăng chậm trong thời gian gần đây (hơn 700 mỗi tháng),
yum update
và khởi động lại đã làm nó chậm lại một chút nhưng tôi đã thấy một số lần khóa bắt đầu xảy ra lần nữa,- một số quy trình (nếu không phải là toàn bộ máy chủ, thật khó để nói), chắc chắn bao gồm tất cả các vỏ tương tác của tôi bị đóng băng trong một khoảng thời gian khi nó xảy ra,
- Tôi không chắc liệu nó có liên quan hay không, nhưng tôi thấy rất nhiều nhật ký / tin nhắn liên quan đến ntpd không thể cập nhật đồng hồ.
Sau đây là một đoạn trích về $(grep 'soft lockup' /var/log/messages*)
:
Mar 22 10:02:35 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [kjournald:1048]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:40 localhost kernel: BUG: soft lockup - CPU#15 stuck for 25s! [swapper:0]
Mar 22 15:42:16 localhost kernel: BUG: soft lockup - CPU#8 stuck for 25s! [kjournald:1048]
Mar 22 18:22:13 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [postgres:21356]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#7 stuck for 10s! [java:8653]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#8 stuck for 72s! [kjournald:1048]
Mar 22 21:21:37 localhost kernel: BUG: soft lockup - CPU#12 stuck for 29s! [kjournald:1048]
Mar 22 21:22:07 localhost kernel: BUG: soft lockup - CPU#12 stuck for 27s! [kjournald:1048]
Mar 23 02:01:47 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [kblockd/8:276]
Mar 23 02:02:22 localhost kernel: BUG: soft lockup - CPU#8 stuck for 34s! [kblockd/8:276]
Điều này xảy ra với các quá trình ngẫu nhiên và dường như được phân phối khá tốt trên 16 "lõi" của máy chủ ảo đó.
Máy chủ lưu trữ là phiên bản AWS EC2 "cc1.4xlarge", với AMI có tên "EC2 CentOS 5.5 GPU HVM AMI (Driver 260.19,29) (ami-42a2532b)". Nó dường như được ảo hóa với Xen.
cat /etc/redhat-release
năng suất CentOS release 5.9 (Final)
. 'free'
báo cáo 21G RAM.
Người đứng đầu dmesg
là:
Linux version 2.6.18-348.3.1.el5 (mockbuild@builder10.centos.org) (gcc version 4.1.2 20080704 (Red Hat 4.1.2-54)) #1 SMP Mon Mar 11 19:39:25 EDT 2013
Command line: ro root=/dev/VolGroup00/LogVol00 rhgb quiet console=tty0 console=ttyS0,115200n8
BIOS-provided physical RAM map:
BIOS-e820: 0000000000010000 - 000000000009fc00 (usable)
BIOS-e820: 000000000009fc00 - 00000000000a0000 (reserved)
BIOS-e820: 00000000000e0000 - 0000000000100000 (reserved)
BIOS-e820: 0000000000100000 - 00000000c0000000 (usable)
BIOS-e820: 00000000fc000000 - 0000000100000000 (reserved)
BIOS-e820: 0000000100000000 - 00000005dd800000 (usable)
DMI 2.4 present.
DMI: Xen HVM domU, BIOS 3.4.3-2.6.18 08/29/2012
ACPI: RSDP (v002 Xen ) @ 0x00000000000ea020
ACPI: XSDT (v001 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0062b0
ACPI: FADT (v004 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005ee0
ACPI: MADT (v002 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005fe0
ACPI: SRAT (v001 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0060c0
ACPI: SLIT (v001 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006240
ACPI: HPET (v001 Xen HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006270
ACPI: DSDT (v002 Xen HVM 0x00000000 INTL 0x20090220) @ 0x(null)
Phần sau đây cho thấy số tích lũy của các "khóa mềm" này trong thời gian gần đây (đường dây đỏ là khi tôi thực hiện lần cuối yum update
theo sau reboot
) :
.
Sau đây cho thấy biểu đồ thời lượng (máy chủ bị kẹt trong bao lâu) : .