HP ProLiant DL360 G7 bị treo ở màn hình Sức mạnh và Hiệu chỉnh Nhiệt


41

Tôi có một hệ thống HP ProLiant DL360 G7 mới đang gặp sự cố khó tái tạo. Các máy chủ bị treo một cách ngẫu nhiên tại " Sức mạnh và hiệu chuẩn nhiệt Đang tiến hành ... " màn hình trong suốt quá trình POST . Điều này thường đi theo khởi động / khởi động lại từ hệ điều hành đã cài đặt.

nhập mô tả hình ảnh ở đây

Hệ thống quầy hàng vô thời hạn tại thời điểm này. Việc thiết lập lại hoặc khởi động nguội thông qua bộ điều khiển nguồn ILO 3 làm cho hệ thống khởi động bình thường mà không gặp sự cố.

Khi hệ thống ở trạng thái này, giao diện ILO 3 hoàn toàn có thể truy cập và tất cả các chỉ số sức khỏe hệ thống đều ổn (tất cả đều màu xanh lá cây). Máy chủ nằm trong một trung tâm dữ liệu được kiểm soát khí hậu với các kết nối nguồn tới PDU. Nhiệt độ môi trường là 64 ° F / 17 ° C. Hệ thống được đặt trong vòng kiểm tra thành phần 24 giờ trước khi triển khai mà không gặp sự cố.

Hệ điều hành chính cho máy chủ này là VMWare ESXi 5. Ban đầu chúng tôi đã thử 5.0 và sau đó là bản dựng 5.1. Cả hai đều được triển khai thông qua khởi động và khởi động PXE. Ngoài ra, chúng tôi đang thử nghiệm với các bản cài đặt Windows và Red Hat Linux.

Các hệ thống HP ProLiant có một bộ tùy chọn BIOS toàn diện. Chúng tôi đã thử cài đặt mặc định bên cạnh cấu hình hiệu suất cao Tĩnh. Tôi đã tắt màn hình giật gân khởi động và chỉ nhận được một con trỏ nhấp nháy tại điểm đó so với ảnh chụp màn hình ở trên. Chúng tôi cũng đã thử một số "cách thực hành tốt nhất" VMWare cho cấu hình BIOS . Chúng tôi đã thấy một lời khuyên từ HP dường như phác thảo một vấn đề tương tự , nhưng không khắc phục được vấn đề cụ thể của chúng tôi.

Nghi ngờ có vấn đề về phần cứng, tôi đã yêu cầu nhà cung cấp gửi một hệ thống giống hệt nhau để giao hàng trong cùng ngày. Máy chủ mới là một bản dựng hoàn toàn giống hệt nhau ngoại trừ các đĩa. Chúng tôi đã chuyển các đĩa từ máy chủ cũ sang mới. Chúng tôi gặp vấn đề khởi động ngẫu nhiên tương tự trên phần cứng thay thế.

Bây giờ tôi có cả hai máy chủ chạy song song. Vấn đề xảy ra ngẫu nhiên trên đôi giày ấm. Giày lạnh dường như không có vấn đề. Tôi đang xem xét một số cài đặt BIOS bí truyền hơn như vô hiệu hóa Turbo Boost hoặc vô hiệu hóa hoàn toàn chức năng hiệu chỉnh nguồn. Tôi có thể thử những thứ này, nhưng chúng không cần thiết.

Có suy nghĩ gì không?

--biên tập--

Chi tiết hệ thống:

  • DL360 G7 - 2 x X5670 CPU Hex-Core
  • 96GB RAM (12 x 8GB DIMM điện áp thấp)
  • Ổ cứng 2 x 146GB 15k SAS
  • 2 x 750W nguồn điện dự phòng

Tất cả các chương trình cơ sở cập nhật kể từ Gói dịch vụ HP mới nhất để phát hành DVD ProLiant.

Gọi cho HP và truy tìm interwebz, tôi đã thấy đề cập đến tương tác ILO 3 xấu, nhưng điều này cũng xảy ra với máy chủ trên bảng điều khiển vật lý. HP cũng đề xuất nguồn điện, nhưng đây là giá đỡ trung tâm dữ liệu cung cấp năng lượng thành công cho các hệ thống sản xuất khác.

Có khả năng nào đây có thể là sự tương tác kém giữa các DIMM điện áp thấp và nguồn điện 750W không? Máy chủ này phải là một cấu hình được hỗ trợ.


2
Bất kỳ cách nào để loại bỏ các đĩa là nguyên nhân có thể? Bất kỳ cơ hội nào bạn có thể kiểm tra với một số đĩa SAS hoặc SATA thay thế?
ErnieTheGeek

Có, đã thử nghiệm với một bộ đĩa tốt trong hệ thống thứ hai. Họ đang chạy song song.
ewwhite

1
Lần duy nhất tôi từng thấy điều này là trong một hệ thống (cũng là DL360 G7) nơi tôi đang cố gắng sử dụng thẻ không phải của HP để cung cấp lưu trữ. Khi tôi có cả thẻ SmartArray và cái khác trong đó, nó đã làm điều đó. Khi tôi lấy ra, nó đã qua. Đây không phải là vấn đề của bạn, nhưng tôi truyền lại những gì tôi gặp phải.
sysadmin1138

1
Có thể một cái gì đó liên quan đến mạng? Cố gắng sao chép mà không được kết nối với mạng.
ErnieTheGeek

1
@TheCleaner Vô hiệu hóa Giới hạn năng lượng động không phải là một tùy chọn trên máy chủ G7. Nó được giới thiệu cho loạt Gen8 ProLiant.
ewwhite

Câu trả lời:


43

Vì vậy, sau khi đưa một hệ thống thứ ba vào hỗn hợp và gặp vấn đề tương tự, chúng tôi bắt đầu đặt câu hỏi về môi trường. Tôi đã tìm thấy một bản sao của Hướng dẫn khắc phục sự cố máy chủ HP ProLiant và tìm thấy sơ đồ các vấn đề POST được hiển thị bên dưới.

nhập mô tả hình ảnh ở đây

Cẩn thận chạy qua các bước trong biểu đồ, chúng tôi nhận ra rằng một hằng số trên tất cả các máy chủ là một công tắc KVM được gắn vào giỏ hàng của trung tâm dữ liệu. Đây là một KVM hỗ trợ USB dành cho người tiêu dùng. Theo nút được tô sáng trong sơ đồ, Bạn có biết KVM tốt không? , Tôi không thể trả lời một cách thuyết phục.

Vì vậy, chúng tôi đã rút các máy chủ khỏi bộ chuyển đổi KVM và chạy tự động khởi động, theo sleep 300; reboottrình tự rc.local. Các máy chủ không có vấn đề gì với điều này, bất kể DIMM bình thường, DIMM điện áp thấp, công suất PSU, v.v.

Đây là tất cả kết quả của sự tương tác kém với bộ chuyển đổi USB KVM. Nhờ rằng đây là bàn điều khiển, nó đảm bảo chúng ta sẽ thấy sự thất bại nếu chúng ta tìm kiếm nó. Tự hoàn thành ...


2
Wow, đó là một trong những tốt! Vui mừng bạn đã nói ra điều này.
nedm

7
Con quạ Thánh. +1 để đặt câu hỏi và trả lời. Làm tốt lắm; Tôi có lẽ đã bỏ qua điều đó. "Được biết là tốt"? Tất nhiên là nó tốt rồi - nó hoạt động phải không?
mfinni

Cảm ơn rât nhiều!!! Đó chắc chắn là KVM. Chỉ cần ngắt kết nối Video và cắm trực tiếp Màn hình và máy chủ sẽ chạy trơn tru trở lại. Sau khi tải hệ điều hành lên, tôi cắm lại KVM. Tôi nghĩ vấn đề đã được gây ra khi tôi vô tình chạm vào dây cáp ở phía sau máy chủ. Hệ thống tạm dừng và chỉ phản ứng với lời khuyên này.

1
Bất cứ ý tưởng làm thế nào một KVM sẽ gây ra điều này?
TheLQ

@TheLQ Một thiết bị KVM cấp tiêu dùng giá rẻ là nguyên nhân ở đây. Cũng có thể có một vấn đề với bàn phím.
ewwhite
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.