Làm thế nào để điều tra máy chủ Linux bất ngờ tắt?


16

Trong máy chủ Xeon 55XX mới có 4xSSD tại cuộc đột kích 10 với Debian 6, tôi đã trải qua 2 lần tắt ngẫu nhiên trong vòng hai tuần sau khi máy chủ được xây dựng. Nhìn vào nhật ký băng thông trước khi tắt không cho thấy điều gì bất thường. Tải máy chủ thường rất thấp (khoảng 1) và được đặt ở xa. Có vẻ như không có sự cố mất điện trong khi máy chủ ngừng hoạt động.

Tôi biết rằng tôi nhìn vào / var / log nhưng không chắc tôi nên điều tra nhật ký nào và tôi nên tìm gì. Vì vậy, đánh giá cao gợi ý của bạn.


Bạn đã tìm thấy vấn đề là gì?
cherouvim

Câu trả lời:


11

Đầu tiên, tôi phải hỏi: "tắt máy"? Bạn có nghĩa là máy khởi động lại hoặc nó thực sự dừng lại? Nếu nó dừng, nó bị cấu hình sai (có lẽ trong BIOS) hoặc một cái gì đó đang tích cực tắt máy (tức là init 0).

Nếu không, ứng cử viên chính của bạn sẽ là / var / log / syslog và /var/log/kern.log vì vấn đề của bạn có vẻ như hoảng loạn hạt nhân hoặc lỗi phần cứng do phần mềm kích hoạt. Tất nhiên, nếu máy chủ chạy một số dịch vụ (ví dụ apache) cũng có thể cung cấp cho bạn manh mối.

Thông thường, trong các tình huống như thế này, có các mục nhật ký được tạo, nhưng vì máy gặp khó khăn, nó sẽ không quản lý để ghi các mục vào đĩa. Nếu hộp được đặt, có khả năng nó được kết nối với bảng điều khiển nối tiếp bởi đối tác colo. Đó là nơi tôi sẽ tìm nếu tôi không tìm thấy điều gì khả nghi trong nhật ký trên.

Nếu máy không được kết nối với bàn điều khiển nối tiếp và không có gì trong nhật ký, bạn có thể muốn xem xét gửi syslog đến một hộp khác qua mạng. Có lẽ giao diện mạng tồn tại lâu hơn một chút và thông điệp tường trình có thể được đọc trên máy chủ nhật ký hệ thống. Có một cái nhìn tại rsyslog hoặc syslog-ng.

CẬP NHẬT:

Tôi đồng ý với @Johann bên dưới. Nguyên nhân rất có thể của dừng là bộ theo dõi nhiệt độ bộ xử lý. Hãy thử kiểm tra / vẽ nhiệt độ trong hộp thông qua lmsensors hoặc smartctl (thường là dễ nhất). Tôi thấy rằng colld là vô song trong việc theo dõi số lượng lớn các biến theo thời gian. Nó có thể làm cả IPMI và cảm biến lm và hddtemp. Ngoài ra, một số BIOS: es đăng nhập nhiệt độ sự kiện.


Máy tắt, và trở lại với cuộc sống ngay sau khi tôi yêu cầu bộ phận hỗ trợ tự khởi động nó.

Nếu nhiệt độ là vấn đề, hãy cài đặt munin để theo dõi dữ liệu nhiệt độ theo thời gian để phát hiện xu hướng.
pkhamre

+1 cho các vấn đề nhiệt độ. Có một điều tương tự trên một trong các máy chủ của tôi trong trung tâm dữ liệu - hóa ra họ quên kết nối một trong những quạt CPU khi họ xây dựng hệ thống.
Cấp

9

Đầu tiên, bạn muốn kiểm tra /var/log/syslog. Nếu bạn không chắc chắn những gì cần tìm, bạn có thể bắt đầu bằng cách tìm kiếm các từ error, panicwarning.

grep -i error /var/log/syslog

Nếu bạn có sẵn biểu đồ hệ thống (ví dụ Munin). Kiểm tra chúng và tìm kiếm các mẫu bất thường. Nếu bạn chưa cài đặt munin, có thể nên cài đặt nó ( apt-get install munin munin-node)

Bạn cũng nên kiểm tra thư gốc xem có tin nhắn thú vị nào có thể liên quan đến sự cố hệ thống của bạn không.

Các logfile khác bạn nên kiểm tra là nhật ký lỗi ứng dụng. Ví dụ /var/log/apache2/error.loghoặc tương tự. Chúng có thể chứa thông tin dẫn bạn đến vấn đề.


6

Theo kinh nghiệm của tôi, "sự dừng lại bất ngờ" hầu như luôn luôn do quá nóng. Kiểm tra nhiệt độ và tốc độ quạt của bạn thông qua lm_sensors và đảm bảo rằng chúng tốt.

Gần đây, chúng tôi có cùng một mô hình: Một máy chủ tạm dừng khoảng một giờ sau khi hỗ trợ tự khởi động nó. Sau giờ này, nhiệt độ CPU đạt đến ngưỡng được cấu hình trong BIOS (iirc 60 hoặc 70 ° C) và tạm dừng hệ thống. Tất cả những rắc rối gây ra bởi một quạt CPU bị hỏng. Sau khi thay quạt, mọi thứ trở lại bình thường.


2

Có một số tệp nhật ký trong thư mục / var / log (và đó là thư mục con), bao gồm

/var/log/boot

/var/log/boot.log

Bắt đầu với các tập tin ở trên.


Và tìm kiếm "cái gì"?
Pierre.Vriens

Điều đó phụ thuộc vào loại thất bại xảy ra. Hầu hết các trường hợp, nguyên nhân gốc là sự cố hạt nhân, sự cố mất điện hoặc quá nóng do tắt CPU, điều đó có nghĩa là không có ai để ghi một mục vào tệp nhật ký và xóa nó vào đĩa, vì vậy sẽ không có tin nhắn nào ở đó .
asdmin

1

Có 2 cách để kiểm tra xem đã kích hoạt tắt máy, trước tiên hãy kiểm tra bảng điều khiển Quản lý ngoài băng cho bất kỳ vấn đề nào trong phần cứng, tôi sẽ đề nghị định cấu hình SNMP và nhận email hoặc thêm bẫy trong phần mềm giám sát cho bất kỳ cảnh báo nào.

Sau đó, thông qua Hệ điều hành, bạn có thể kiểm tra /var/log/messages(các bản phân phối dựa trên RedHat) hoặc /var/log/syslog(các bản phân phối dựa trên Debian).


0

Hệ thống con đĩa đủ phức tạp để bị ảnh hưởng khi xảy ra sự cố, vì bạn hầu như không nhận được bất cứ điều gì trong tệp nhật ký của mình.

Hãy thử đăng nhập vào bảng điều khiển nối tiếp. Điều này cần một số hệ thống cáp, và một hệ thống khác để nhận các dòng, nhưng bạn có cơ hội tốt hơn thực sự nắm bắt được vấn đề.

Tất nhiên, nếu nút của bạn có hệ thống quản lý tích hợp tương tự như ALOM / ILOM của Oracle, bạn cũng có thể kiểm tra các sự cố có thể xảy ra và các tệp nhật ký ở đó.


-1

Bạn có thể tìm thấy nếu hệ thống biết về thực tế rằng nó đang đi xuống với các lệnh tiếp theo

sudo last -1x reboot
sudo last -1x shutdown

Nếu không có thông tin => thì nó có thể bị mất điện hoặc thứ gì khác bên ngoài

nếu bạn có thông tin => tìm kiếm trong nhật ký xung quanh thời gian khởi động lại / tắt máy

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.