Gỡ lỗi máy Linux đóng băng


9

Tôi có 15 máy chủ Linux rh 4.7 64 bit giống hệt nhau. Họ chạy cơ sở dữ liệu cụm (cụm là cấp ứng dụng). Thỉnh thoảng (mỗi tháng hoặc lâu hơn) một hộp ngẫu nhiên (không bao giờ giống nhau) đóng băng.

Tôi có thể ping hộp và ping hoạt động. Nếu tôi cố gắng ssh trong hộp tôi nhận được:

ssh_exchange_identification: Connection closed by remote host

SSH được thiết lập đúng.

Khi tôi đến phòng máy chủ và cố gắng đăng nhập trực tiếp vào bảng điều khiển, tôi có thể chuyển đổi bảng điều khiển bằng Alt+ Fn, tôi có thể nhập tên người dùng và các ký tự hiển thị, nhưng sau khi nhấn Enter, không có gì xảy ra. Tôi đã đợi 8 giờ một lần và nó không thay đổi.

Tôi thiết lập nhật ký hệ thống để ghi nhật ký mọi thứ vào máy chủ từ xa và không có gì trong các nhật ký đó. Khi tôi khởi động lại máy, nó hoạt động mà không gặp vấn đề gì. Tôi đã chạy thử nghiệm CTNH - mọi thứ đều ổn, và không có gì trong nhật ký. Các máy cũng được theo dõi bằng NAGIOS và không có tải hoặc hoạt động bất thường trước khi đóng băng.

Tôi đã hết ý tưởng; Tôi có thể làm gì khác hoặc kiểm tra?


Những bài kiểm tra phần cứng nào bạn đã chạy? Bạn đã sử dụng công cụ gì?
tshepang

CTNH là HP proliant, tôi đã sử dụng tiện ích của họ để kiểm tra trạng thái RAID, các công cụ thông minh thông thường không hoạt động và tôi đã sử dụng memtest để kiểm tra bộ nhớ. Tôi gặp vấn đề này trong vài tháng và nó không bao giờ giống máy chủ.
Luka Marinko

RedHat hỗ trợ đề xuất gì?
RedGrittyBrick

Luka, tại bàn điều khiển, không có gì xảy ra sau khi chỉ nhập tên người dùng và nhấn enter, hoặc nó sẽ nhắc bạn nhập mật khẩu và sau đó không phản hồi?
mattdm

nếu bạn đã giải quyết vấn đề, vui lòng chỉnh sửa câu hỏi của bạn để mô tả những gì thực sự sai và những gì bạn đã làm cho người khác thấy.
Thorbjørn Ravn Andersen

Câu trả lời:


6

Có vẻ như kernel của bạn hoảng loạn theo một cách nào đó mà sshd không thể gửi các khóa máy chủ. Có thể, kernel đã được ghép theo cách mà ngăn xếp mạng vẫn còn, nhưng lớp vfs không có sẵn.

Khi tôi gặp vấn đề tương tự trên hệ thống RHEL4, tôi đã thiết lập các dịch vụ netdump và netconsole , và một máy chủ netdump và syslog chuyên dụng để nắm bắt các thông tin về sự cố và thông tin hoảng loạn của kernel. Tôi cũng đặt sysctl kernel.panic thành 10. Bằng cách đó, khi hệ thống hoảng loạn, bạn nhận được cả dấu vết hạt nhân và bản sao của bộ nhớ trên hệ thống đó, mà bạn có thể phân tích với tiện ích 'crash'.

Bạn chắc chắn cũng sẽ được hưởng lợi từ việc thiết lập một giao diện điều khiển nối tiếp cho các máy chủ, vì vậy bạn có thể thấy giao diện điều khiển được đặt và có khả năng nhấn các phím sysrq ma thuật. Ngoài ra, nếu bạn sẵn sàng thiết lập mạng và bạn có phần cứng hỗ trợ nó, bạn có thể sử dụng IPMI để tắt nguồn, poweron, khởi động lại và truy vấn phần cứng từ xa.

(với giá trị của nó, RHEL5 có chức năng tương tự với kexec / kdump, chỉ có bãi chứa sự cố được lưu trữ cục bộ)


Xin chào, tôi có acces để điều khiển trực tiếp (thông qua KVM), và không có gì ở đó. Tôi có thể chuyển đổi giữa các loại thiết bị đầu cuối ảo trong tên người dùng của mình, nhưng đó cũng là ctr + alt + del không hoạt động, nhưng nên từ bảng điều khiển.
Luka Marinko

Ngoài ra các máy chủ có ILO của HP, tôi có thể khởi động lại chúng và xem thông tin về CTNH từ xa. Không có lỗi ở đó
Luka Marinko

Bạn đã kiểm tra các nhật ký hệ thống trong thời gian đó? Nghe có vẻ như một hạt nhân hoảng loạn. Tôi không tin tưởng KVM trên các máy chủ linux của mình, thường thì sự hoảng loạn hạt nhân không xuất hiện trên bảng điều khiển, hoặc nó bị hỏng hoặc chỉ là một vài dòng cuối cùng, đó là lý do tại sao tôi thích giao diện điều khiển nối tiếp.
jsbillings

1
Điều này không có vẻ như một hoảng loạn hạt nhân. Bảng điều khiển chuyển đổi vẫn hoạt động và chương trình đăng nhập vẫn hoạt động.
mattdm

vâng tôi đã syslog chuyển hướng đến máy chủ syslog trung tâm. Không có gì bất thường trong các bản ghi.
Luka Marinko

3

Tôi sẽ đặt cược đô la cho bánh rán mà bạn sắp hết bộ nhớ. Hệ thống đang bị đình trệ khi nó cố gắng tìm ra nơi để lấy một số từ đó. Nó có thể xảy ra quá nhanh đến nỗi giám sát của bạn không nắm bắt được. Tôi sẽ tăng cường giám sát, bao gồm ghi nhật ký sử dụng bộ nhớ từ xa. Kiểm tra nhật ký cho các tin nhắn OOM là tốt.

(Bạn thậm chí có thể chỉ muốn mở một số cửa sổ ssh đang chạy.)


3

Đối với tôi điều này nghe có vẻ như hệ thống hết tài nguyên nên quá trình cần thiết của phía máy chủ của ssh không thể được phân bổ.

Nút cổ chai thực tế có thể khác nhau - ngoài quy trình hoặc hết bộ nhớ - và cách duy nhất để chắc chắn là nhìn vào nhật ký và bảng điều khiển để xem có gì hiện diện ở đó không. Bạn có thể muốn thiết lập một kịch bản của các công việc ssh được bắt đầu trước - một cho mỗi máy - chỉ đơn giản là được chuẩn bị vào lần tiếp theo.

Nếu nó thực sự xấu, thì bạn có thể muốn xem xét bắt đầu một shell khác với các lệnh tích hợp nhiều hơn để bạn có thể điều tra thêm mà không phải bắt đầu một quy trình bổ sung vì điều này có thể không thực hiện được. Ngoài ra "tail -f / var / log / *" có thể rất hữu ích.

Chúc may mắn.


0

Lần duy nhất tôi thấy bất cứ điều gì tương tự là nơi sử dụng công tắc KVM và phím nóng bàn phím (ví dụ: alt + n) được sử dụng để chuyển đổi giữa các máy chủ. Điều đó đã không xảy ra mọi lúc và máy chủ bị chuyển đi khỏi bị ảnh hưởng - vì vậy nó không được chú ý ngay lập tức. Sẽ không có trường hợp khóa nào xảy ra nếu một nút vật lý trên chính công tắc KVM được sử dụng để chuyển đổi giữa các máy chủ. Nếu phím nóng thường được sử dụng, đôi khi một máy chủ sẽ không cho phép đăng nhập mới. Các phiên SSH hiện tại không bị ảnh hưởng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.