Thông báo giới hạn năng lượng của máy tính cá nhân bị chặn trên máy chủ Dell 12G


9

Máy chủ: Poweredge r620
Hệ điều hành: RHEL 6.4
Kernel: 2.6.32-358.18.1.el6.x86_64

Tôi đang gặp phải báo động ứng dụng trong môi trường sản xuất của tôi. Các quy trình đói CPU quan trọng đang bị thiếu tài nguyên và gây ra tồn đọng xử lý. Vấn đề đang xảy ra trên tất cả các máy chủ Dell thế hệ thứ 12 (r620) trong một cụm được triển khai gần đây. Theo như tôi có thể nói, các trường hợp xảy ra điều này phù hợp với mức sử dụng CPU cao nhất, kèm theo một lượng lớn thư rác "thông báo giới hạn năng lượng" dmesg. Một đoạn trích của một trong những sự kiện này:

Nov  7 10:15:15 someserver [.crit] CPU12: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU0: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU6: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU14: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU18: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU2: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU4: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU16: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU0: Package power limit notification (total events = 11)
Nov  7 10:15:15 someserver [.crit] CPU6: Package power limit notification (total events = 13)
Nov  7 10:15:15 someserver [.crit] CPU14: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU18: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU20: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU8: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU2: Package power limit notification (total events = 12)
Nov  7 10:15:15 someserver [.crit] CPU10: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU22: Core power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU4: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU16: Package power limit notification (total events = 13)
Nov  7 10:15:15 someserver [.crit] CPU20: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU8: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU10: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU22: Package power limit notification (total events = 14)
Nov  7 10:15:15 someserver [.crit] CPU15: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU3: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU1: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU5: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU17: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU13: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU15: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU3: Package power limit notification (total events = 374)
Nov  7 10:15:15 someserver [.crit] CPU1: Package power limit notification (total events = 376)
Nov  7 10:15:15 someserver [.crit] CPU5: Package power limit notification (total events = 376)
Nov  7 10:15:15 someserver [.crit] CPU7: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU19: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU17: Package power limit notification (total events = 377)
Nov  7 10:15:15 someserver [.crit] CPU9: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU21: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU23: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU11: Core power limit notification (total events = 369)
Nov  7 10:15:15 someserver [.crit] CPU13: Package power limit notification (total events = 376)
Nov  7 10:15:15 someserver [.crit] CPU7: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU19: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU9: Package power limit notification (total events = 374)
Nov  7 10:15:15 someserver [.crit] CPU21: Package power limit notification (total events = 375)
Nov  7 10:15:15 someserver [.crit] CPU23: Package power limit notification (total events = 374)

Một chút Google Fu tiết lộ rằng điều này thường được liên kết với CPU đang nóng hoặc điều chỉnh điện áp. Tôi không nghĩ đó là những gì đang xảy ra. Cảm biến nhiệt độ cho tất cả các máy chủ trong cụm đang hoạt động tốt, Chính sách cấp nguồn bị tắt trong iDRAC và Cấu hình hệ thống của tôi được đặt thành "Hiệu suất" trên tất cả các máy chủ này:

# omreport chassis biossetup | grep -A10 'System Profile'
System Profile Settings
------------------------------------------
System Profile                                    : Performance
CPU Power Management                              : Maximum Performance
Memory Frequency                                  : Maximum Performance
Turbo Boost                                       : Enabled
C1E                                               : Disabled
C States                                          : Disabled
Monitor/Mwait                                     : Enabled
Memory Patrol Scrub                               : Standard
Memory Refresh Rate                               : 1x
Memory Operating Voltage                          : Auto
Collaborative CPU Performance Control             : Disabled
  • Một bài đăng danh sách gửi thư của Dell mô tả các triệu chứng gần như hoàn hảo. Dell đề nghị tác giả thử sử dụng hồ sơ Hiệu suất, nhưng điều đó không có ích. Cuối cùng, ông đã áp dụng một số cài đặt trong hướng dẫn của Dell để định cấu hình máy chủ cho môi trường có độ trễ thấp và một trong những cài đặt đó (hoặc kết hợp giữa chúng) dường như đã khắc phục được sự cố.
  • Lỗi Kernel.org # 36182 lưu ý rằng gỡ lỗi ngắt giới hạn nguồn được bật theo mặc định, điều này gây ra sự suy giảm hiệu năng trong các tình huống trong đó điều chỉnh điện áp CPU được kích hoạt.
  • Một bài viết KB RHN (yêu cầu đăng nhập RHN) đề cập đến sự cố ảnh hưởng đến máy chủ PE r620 và r720 không chạy cấu hình Hiệu suất và khuyến nghị cập nhật lên kernel được phát hành hai tuần trước. ... Ngoại trừ chúng tôi đang chạy hồ sơ Hiệu suất ...

Tất cả mọi thứ tôi có thể tìm thấy trực tuyến đang chạy tôi trong vòng tròn ở đây. Cái quái gì đang diễn ra vậy?


1
FYI, vấn đề này đã được sửa trong kernel mainline 3.11. Đó là do trình xử lý ngắt nhân kích hoạt cho sự kiện không quan trọng "bình thường" này. Các cam kết liên kết ở trên vô hiệu hóa xử lý này.
Totor

Câu trả lời:


8

Đó không phải là quy định điện áp gây ra vấn đề về hiệu năng, mà là hạt nhân gỡ lỗi bị gián đoạn bởi nó.

Mặc dù có một số thông tin sai lệch về phần Redhat, tất cả các trang được liên kết đều đề cập đến cùng một hiện tượng. Việc điều chỉnh điện áp xảy ra có hoặc không có cấu hình Hiệu suất, có thể do tính năng Turbo Boost được bật. Bất kể lý do là gì, các dao động điện áp này tương tác kém với các ngắt hạt nhân giới hạn năng lượng được bật theo mặc định trong kernel 2.6.32-358.18.1.el6.x86_64.

Giải pháp được xác nhận:

  • Nâng cấp lên kernel Redhat được phát hành gần đây nhất (2.6.32-358.23.2.el6) sẽ vô hiệu hóa việc gỡ lỗi này và loại bỏ vấn đề về hiệu năng.
  • Thêm các tham số kernel sau vào grub.confsẽ vô hiệu hóa PLN:clearcpuid=229

Cách giải quyết dễ dàng:

  • Đặt cấu hình hệ thống của "Hiệu suất". Điều này tự nó không đủ để vô hiệu hóa PLN trên các máy chủ của chúng tôi. Số dặm của bạn có thể thay đổi.

Xấu Cách giải quyết:

  • Danh sách đen các mô-đun liên quan đến ACPI. Tôi đã thấy điều này trong một vài chủ đề diễn đàn. Không nên khuyên, vì vậy đừng .

Bạn không chạy các bản cập nhật trên các hệ thống mới được triển khai?
ewwhite

@ewwhite Các máy chủ này đã được triển khai ngay trước khi các bản cập nhật kernel đó hoạt động. RPM mới đã có sẵn vào ngày 16 tháng 10 .
Andrew B

Grrr đến Mũ Đỏ. Đẹp tìm thấy.
ewwhite

Ngay cả sau khi cập nhật, vấn đề này vẫn xuất hiện trở lại với tôi sau một vài tuần (trên kernel 2.6.32-431.17.1.el6.x86_64). Chúng tôi đã phải vô hiệu hóa PLN bằng cách sử dụng Clearcpuid để loại bỏ nó lần này. Vấn đề này đã khiến tôi đau đầu quá nhiều rồi! Và chúng tôi chỉ có một máy chủ Dell 12G (và nó sẽ vẫn là duy nhất vì điều này).
Martijn

1
@Martijn Chúng tôi hiện đang gặp phải 2.6.32-431.11.2.el6.x86_64và không gặp vấn đề. Nhiều cụm, tải trọng cao, v.v ... Có thể hồi quy có thể đã xuất hiện khi Redhat phát hành bản cập nhật năm ngày trước. Tôi sẽ cho bạn biết những gì tôi tìm thấy và cập nhật câu trả lời nếu tôi phát hiện ra đó là trường hợp.
Andrew B
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.