Máy chủ: Poweredge r620
Hệ điều hành: RHEL 6.4
Kernel: 2.6.32-358.18.1.el6.x86_64
Tôi đang gặp phải báo động ứng dụng trong môi trường sản xuất của tôi. Các quy trình đói CPU quan trọng đang bị thiếu tài nguyên và gây ra tồn đọng xử lý. Vấn đề đang xảy ra trên tất cả các máy chủ Dell thế hệ thứ 12 (r620) trong một cụm được triển khai gần đây. Theo như tôi có thể nói, các trường hợp xảy ra điều này phù hợp với mức sử dụng CPU cao nhất, kèm theo một lượng lớn thư rác "thông báo giới hạn năng lượng" dmesg
. Một đoạn trích của một trong những sự kiện này:
Nov 7 10:15:15 someserver [.crit] CPU12: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU0: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU6: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU14: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU18: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU2: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU4: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU16: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU0: Package power limit notification (total events = 11)
Nov 7 10:15:15 someserver [.crit] CPU6: Package power limit notification (total events = 13)
Nov 7 10:15:15 someserver [.crit] CPU14: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU18: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU20: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU8: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU2: Package power limit notification (total events = 12)
Nov 7 10:15:15 someserver [.crit] CPU10: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU22: Core power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU4: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU16: Package power limit notification (total events = 13)
Nov 7 10:15:15 someserver [.crit] CPU20: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU8: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU10: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU22: Package power limit notification (total events = 14)
Nov 7 10:15:15 someserver [.crit] CPU15: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU3: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU1: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU5: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU17: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU13: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU15: Package power limit notification (total events = 375)
Nov 7 10:15:15 someserver [.crit] CPU3: Package power limit notification (total events = 374)
Nov 7 10:15:15 someserver [.crit] CPU1: Package power limit notification (total events = 376)
Nov 7 10:15:15 someserver [.crit] CPU5: Package power limit notification (total events = 376)
Nov 7 10:15:15 someserver [.crit] CPU7: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU19: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU17: Package power limit notification (total events = 377)
Nov 7 10:15:15 someserver [.crit] CPU9: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU21: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU23: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU11: Core power limit notification (total events = 369)
Nov 7 10:15:15 someserver [.crit] CPU13: Package power limit notification (total events = 376)
Nov 7 10:15:15 someserver [.crit] CPU7: Package power limit notification (total events = 375)
Nov 7 10:15:15 someserver [.crit] CPU19: Package power limit notification (total events = 375)
Nov 7 10:15:15 someserver [.crit] CPU9: Package power limit notification (total events = 374)
Nov 7 10:15:15 someserver [.crit] CPU21: Package power limit notification (total events = 375)
Nov 7 10:15:15 someserver [.crit] CPU23: Package power limit notification (total events = 374)
Một chút Google Fu tiết lộ rằng điều này thường được liên kết với CPU đang nóng hoặc điều chỉnh điện áp. Tôi không nghĩ đó là những gì đang xảy ra. Cảm biến nhiệt độ cho tất cả các máy chủ trong cụm đang hoạt động tốt, Chính sách cấp nguồn bị tắt trong iDRAC và Cấu hình hệ thống của tôi được đặt thành "Hiệu suất" trên tất cả các máy chủ này:
# omreport chassis biossetup | grep -A10 'System Profile'
System Profile Settings
------------------------------------------
System Profile : Performance
CPU Power Management : Maximum Performance
Memory Frequency : Maximum Performance
Turbo Boost : Enabled
C1E : Disabled
C States : Disabled
Monitor/Mwait : Enabled
Memory Patrol Scrub : Standard
Memory Refresh Rate : 1x
Memory Operating Voltage : Auto
Collaborative CPU Performance Control : Disabled
- Một bài đăng danh sách gửi thư của Dell mô tả các triệu chứng gần như hoàn hảo. Dell đề nghị tác giả thử sử dụng hồ sơ Hiệu suất, nhưng điều đó không có ích. Cuối cùng, ông đã áp dụng một số cài đặt trong hướng dẫn của Dell để định cấu hình máy chủ cho môi trường có độ trễ thấp và một trong những cài đặt đó (hoặc kết hợp giữa chúng) dường như đã khắc phục được sự cố.
- Lỗi Kernel.org # 36182 lưu ý rằng gỡ lỗi ngắt giới hạn nguồn được bật theo mặc định, điều này gây ra sự suy giảm hiệu năng trong các tình huống trong đó điều chỉnh điện áp CPU được kích hoạt.
- Một bài viết KB RHN (yêu cầu đăng nhập RHN) đề cập đến sự cố ảnh hưởng đến máy chủ PE r620 và r720 không chạy cấu hình Hiệu suất và khuyến nghị cập nhật lên kernel được phát hành hai tuần trước. ... Ngoại trừ chúng tôi đang chạy hồ sơ Hiệu suất ...
Tất cả mọi thứ tôi có thể tìm thấy trực tuyến đang chạy tôi trong vòng tròn ở đây. Cái quái gì đang diễn ra vậy?