Xác định nguyên nhân gây ra khởi động lại máy chủ


8

Tôi có một HP ProLiant DL380p Gen8 đang chạy VMWare ESXi 5.5 . Nó đã tự khởi động lại trong khoảng thời gian dường như ngẫu nhiên trong 24 giờ qua. Chỉ có một VM duy nhất đang chạy và ngay cả khi tôi tắt nó, máy chủ vẫn sẽ khởi động lại. Máy chủ không hết bộ nhớ hoặc dung lượng ổ đĩa, và theo như tôi có thể nói là không quá nóng. Tôi đã thử xem qua các tệp nhật ký, nhưng có quá nhiều thứ để xem.

Các bước quan trọng nhất trong chẩn đoán sự cố này (bao gồm cài đặt nào để kiểm tra, xem tệp nào, thông báo cụ thể nào sẽ chỉ ra sự cố, tôi có nên bắt đầu kéo bộ nhớ không, có CD chẩn đoán nào thực hiện cho tôi không, v.v.) ?

Tôi biết đây là một câu hỏi rất rộng. Tôi rất vui khi cung cấp các tệp nhật ký nếu cần thiết để làm cho điều này cụ thể hơn với tình huống của tôi.

Câu trả lời:


9

Dưới đây là một vài gợi ý.

  • ILO của bạn có được kết nối và định cấu hình không? Nó sẽ cho bạn biết chính xác những gì đang xảy ra với hệ thống. Vui lòng xem lại nhật ký ILO4.

  • Xem nhật ký IML của hệ thống (có sẵn thông qua tab "phần cứng" ILO hoặc vSphere)

  • Có bất kỳ chỉ báo hoặc thông báo lỗi trên màn hình trong khi gặp sự cố hoặc tại POST không?

  • Bạn có đang sử dụng bản cài đặt ESXi dành riêng cho HP không (bao gồm các trình điều khiển và công cụ bổ sung)

  • Phiên bản và số bản dựng ESXi nào bạn đang chạy?

  • Nếu máy ảo bạn đang chạy là một khách Windows 2012 hoặc 2008, bạn có thể đang gặp phải lỗi trình điều khiển NIC .

  • Kiểm tra kết nối nguồn của bạn. Bạn có nguồn cung cấp năng lượng kép? Ngồi lại các dây cáp điện một lần.

  • Nhìn vào mảng LED Insight của hệ thống ở phía trước máy chủ để xác định xem có vấn đề sức khỏe bên trong không.

nhập mô tả hình ảnh ở đây


2
Và GỌI NHÀ VENDOR để được hỗ trợ, quá. Bạn có thể và nên dành thời gian để điều tra bản thân, nhưng nếu đây là một máy chủ quan trọng, thì nó phải theo một thỏa thuận hỗ trợ.
mfinni

Tôi đã không thiết lập ILO, cảm ơn bạn rất nhiều vì lời đề nghị. Khi nó được thiết lập, tôi đã kiểm tra nhật ký và tìm thấy cái này System Overheating (Temperature Sensor 1, Location Ambient, Temperature 46C). Tôi sẽ sửa nó ngay lập tức.
nachito

Điều này có nghĩa là phòng máy chủ hoặc môi trường của bạn quá ấm. Điều này cũng sẽ dẫn đến đèn ĐỎ trên đèn LED nhiệt độ trong hình trên. Tùy thuộc vào thời điểm bạn triển khai máy chủ này, bạn cũng có thể muốn chạy các bản cập nhật firmware trên hệ thống.
ewwhite

Tôi nghĩ những gì đang xảy ra là khí thải từ một giá đỡ khác quá gần với cửa hút của máy này, vì bản thân căn phòng là một chiếc 72F tuyệt vời. Khi tôi để mắt vào máy khi nó khởi động lại, tôi đã thấy đèn flash OverTemp trong một phần của giây. Không ngạc nhiên tôi chưa bao giờ thấy điều đó trước đây, nếu bạn chớp mắt không đúng lúc bạn sẽ hoàn toàn bỏ lỡ nó
nachito

3
@nachito Tôi hy vọng bạn biết rằng ILO và máy chủ có thể gửi email cho bạn thông báo về sức khỏe, như tình trạng nhiệt độ này ...
ewwhite
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.