Kiểm tra phần cứng tự động của máy chủ HP?


9

Là một phần của máy chủ cung cấp, chúng tôi chạy Chẩn đoán chuyên sâu của HP để kiểm tra phần cứng. Đây là một quá trình thủ công. Có cách nào tự động hóa việc chạy Insight Chẩn đoán không?

Có phần mềm hpdiags với tùy chọn "-rd:" "Chạy chẩn đoán tất cả các thiết bị có thể chẩn đoán." Từ thử nghiệm của tôi, điều này không làm được gì nhiều (nó chỉ đọc thông tin SMART từ các đĩa). Có ai có may mắn hơn với nó?

Phần cứng: BladeCenter c7000 với lưỡi cắt HP ProLiant BL460c, DL360.

HĐH: ESXi và Ubuntu.


2
Câu trả lời ngắn gọn là tôi không bận tâm làm điều này trong môi trường lớn. Việc theo dõi và chẩn đoán trên tàu là đủ. Nhưng bạn có thể cung cấp một số thông tin về các mô hình máy chủ bạn đang sử dụng không? Và có thể các hệ điều hành liên quan.
ewwhite

Tôi đã cập nhật vé với thông tin được yêu cầu.
Mark Wagner

Bạn có đang cài đặt các phiên bản ESXi dành riêng cho HP không? Bạn có cài đặt Đại lý quản lý HP trên các hệ thống Ubuntu không? Những thế hệ nào là máy chủ? G6? G7? Gen8?
ewwhite

Các tác nhân quản lý HP được cài đặt trên cả ESXi và Ubuntu. Các máy chủ là Gen8 và sẽ là Gen9.
Mark Wagner

8
I updated the ticket with the requested info- Điều đó làm tôi cười. Đây không phải là bộ phận trợ giúp.
joeqwerty

Câu trả lời:


8

Vì vậy, tôi sẽ đặt ra một câu hỏi khác:

Tại sao cần phải chạy chẩn đoán phần cứng HP Insight trên các máy chủ trước khi cung cấp?

Trong nhận xét của tôi ở trên, tôi đã chỉ ra rằng có rất ít để đạt được bằng cách thực hiện điều này một cách nhanh chóng trong môi trường HP ProLiant lớn. Tôi nên làm rõ suy nghĩ của mình về điều đó ...

Theo thứ tự tần suất giảm dần, hãy xem xét các loại vấn đề bạn thường gặp phải:

  • Mảng lưu trữ và đĩa : Bộ điều khiển RAID sẽ báo cáo cho HĐH, nhật ký, SNMP, email, ILO và thắp sáng những ánh sáng đẹp để biểu thị sức khỏe.

  • RAM : Quá trình POST sẽ phát hiện trạng thái RAM, cũng như hệ thống báo cáo với HĐH, nhật ký, SNMP, email, ILO và thắp sáng một đèn LED trên bảng điều khiển Hệ thống hiển thị thông tin chi tiết (SID) . Ngoài ra, tôi không phải là người hâm mộ các quy trình ghi nhớ RAM vì khả năng phát hiện lỗi của các hệ thống này đã rất mạnh mẽ.

  • Nhiệt và quạt : Nhiệt độ máy chủ và tốc độ quạt được quy định bởi ILO. Có hơn 30 cảm biến nhiệt độ trên các hệ thống này , vì vậy hệ thống làm mát cực kỳ hiệu quả. Điều này vẫn báo cáo cho HĐH, nhật ký, SNMP, email và trên SID.

  • Nguồn cung cấp : Trạng thái PSU được báo cáo cho HĐH, nhật ký, SNMP, email và trên SID, cũng như đèn báo thực tế trên bộ cấp nguồn thực tế.

  • Sức khỏe tổng thể : Điều này dễ dàng được đánh giá từ một cái nhìn thoáng qua với màn hình SID, bên cạnh đèn LED Sức khỏe bên trong và Sức khỏe bên ngoài. Điều này cũng được báo cáo với nhật ký của máy chủ, SNMP, email và ILO.

nhập mô tả hình ảnh ở đây

Tôi không thể nghĩ ra bất kỳ điều kiện nào sẽ được tìm thấy trước khi triển khai mà không / không thể được báo cáo trong thời gian chạy hoặc cài đặt hệ điều hành.

Vòng lặp chẩn đoán thường sẽ không tìm thấy bất cứ điều gì khi chạy trên một hệ thống không có vấn đề rõ ràng trước đó. Điều này chủ yếu là do máy chủ cần POST và khởi động vào tiện ích hoặc phần mềm Cung cấp thông minh để chạy tiện ích.

Nói cách khác, bất kỳ mục nào là "SPOF" nghiêm trọng cho máy chủ có thể sẽ ngăn hệ thống chạy tự chẩn đoán.

Các mục thất bại phổ biến nhất vẫn còn khá mạnh mẽ; các đĩa phải ở dạng RAID và có thể hoán đổi được. Quạt và nguồn cung cấp năng lượng cũng nóng. RAM của bạn có ngưỡng ECC và có các tùy chọn dự phòng trực tuyến cho hầu hết các nền tảng ProLiant. Không có gì bạn có thể làm để gây ra sự thất bại trong các thành phần này bằng cách chạy chẩn đoán. Thêm một thực tế là bạn đang sử dụng vỏ HP C7000 Blade, có dự phòng nội bộ và tỷ lệ thất bại của bạn sẽ khá thấp.


Vấn đề là nếu (a) lỗi được phát hiện cài đặt hệ điều hành (tức là máy chủ đang trong quá trình sản xuất), (b) sửa chữa không thể thực hiện trực tuyến hoặc thành phần bị lỗi là SPOF cho máy chủ và (c) máy chủ là SPOF, sau đó bạn sẽ gặp thời gian chết (ngay lập tức hoặc khi hệ thống được gỡ xuống để sửa chữa). Để ngăn chặn kết luận bạn cần ngăn chặn một trong những điều kiện. Tôi đã đi (a) bằng cách phát hiện lỗi trước khi sản xuất. Tôi đánh giá cao sự kỹ lưỡng của bạn trong việc chi tiết các khả năng báo cáo nhưng tôi đang tìm cách ngăn chặn sự cần thiết phải báo cáo chúng ngay từ đầu vì chúng không xảy ra.
Đánh dấu Wagner

Vòng lặp chẩn đoán HP có thể sẽ không tìm thấy gì, vì máy chủ cần POST và khởi động vào tiện ích hoặc Cung cấp thông minh để chạy chẩn đoán. Các mục thất bại phổ biến nhất là khá mạnh mẽ; đĩa, quạt và nguồn điện đều có thể tráo đổi nhanh, RAM có ngưỡng ECC. Bạn sẽ không thể làm gì để gây ra thất bại trong các thành phần này.
ewwhite 16/2/2015
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.