Tôi chạy một máy chủ bằng cách sử dụng Debian Squeeze với một số thùng chứa OpenVZ. Các container chạy chủ yếu là Squeeze, một số Lenny và một số đã được cập nhật lên Wheezy. Các máy chủ không làm điều đó vượt quá iptables và DHCP. Các máy chủ tệp, proxy, máy chủ thư, kerberos, LDAP, ... đều được đưa vào các thùng chứa. Hệ thống chạy ổn định trong nhiều năm và không có thay đổi lớn ngoại trừ một số quy tắc tường lửa trong hơn một năm.
2 ngày trước đột nhiên hệ thống bị sập. Tôi đã có rất nhiều vấn đề đưa nó lên một lần nữa. Lúc đầu, nó sẽ không cho phép tôi đăng nhập qua ssh. đăng nhập root đã bị từ chối bởi 'Bạn không tồn tại. Biến đi!' Đăng nhập địa phương là tốt. Một thời gian sau ssh làm việc lại. Do trùng hợp, tôi đã không sử dụng lại dòng từ lịch sử bash, nhưng đã gõ một lệnh mới, được kiểm tra ba lần giống hệt với dòng, trước đây không hoạt động nhưng hoạt động trước khi sự cố.
Sau đó, hệ thống đã chạy, nhưng lưu lượng mạng trên hầu hết các giao thức đã bị chặn sau SYN ACK. DNS, Telnet và SSH đều ổn, nhưng phần còn lại là một mớ hỗn độn. Sau vài giờ câu cá trong bóng tối và tải lại tường lửa nhiều lần, mọi thứ đột nhiên trở lại tốt đẹp. Tôi không thể tìm thấy bất cứ điều gì đáng ngờ trong nhật ký - nhưng tôi không phải là chuyên gia pháp y.
Hôm nay, nscd của máy chủ tệp đã hết ổ cắm để liên hệ với LDAP do hạn ngạch container. Một điều chưa từng xảy ra trước đây. Tôi cũng đã thấy rất nhiều (& gt; 30) ổ cắm được yêu cầu bởi smbd.
/ var / log / message trông khá giống với nhật ký hệ thống . /var/log/kern.log có thông tin bổ sung này về lý do sự cố:
/var/log/kern.log:2950:Sep 19 10:46:57 asgard kernel: [6529441.320086] INFO: task sendmail:32181 blocked for more than 120 seconds.
/var/log/kern.log:2982:Sep 19 10:48:57 asgard kernel: [6529561.324525] INFO: task kdmflush:1932 blocked for more than 120 seconds.
/var/log/kern.log:3005:Sep 19 10:48:57 asgard kernel: [6529561.324694] INFO: task xfssyncd:10162 blocked for more than 120 seconds.
/var/log/kern.log:3027:Sep 19 10:48:57 asgard kernel: [6529561.324934] INFO: task postgres:16827 blocked for more than 120 seconds.
/var/log/kern.log:3060:Sep 19 10:49:51 asgard kernel: [6529561.325129] INFO: task imapd:31749 blocked for more than 120 seconds.
/var/log/kern.log:3084:Sep 19 10:49:51 asgard kernel: [6529561.325248] INFO: task cleanup:32194 blocked for more than 120 seconds.
/var/log/kern.log:3106:Sep 19 10:50:57 asgard kernel: [6529681.324028] INFO: task flush-253:3:3216 blocked for more than 120 seconds.
/var/log/kern.log:3142:Sep 19 10:50:57 asgard kernel: [6529681.324224] INFO: task kjournald:6859 blocked for more than 120 seconds.
/var/log/kern.log:3166:Sep 19 10:50:57 asgard kernel: [6529681.324366] INFO: task syslogd:11720 blocked for more than 120 seconds.
/var/log/kern.log:3198:Sep 19 10:50:57 asgard kernel: [6529681.324574] INFO: task postgres:16827 blocked for more than 120 seconds.
/var/log/kern.log:7152:Sep 19 19:29:41 asgard kernel: [ 1440.617090] INFO: task sendmail:11892 blocked for more than 120 seconds.
Sự cố 'sendmail' cuối cùng là sau khi khởi động lại máy. Kể từ đó không có sự kiện như vậy xảy ra. 'imapd' và 'postgres' chắc chắn chạy trong các thùng chứa khác nhau.
Chà, tôi không thấy bất kỳ khẩu súng hút thuốc nào, nhưng có lẽ tôi chỉ bị mù. Thiết lập hệ thống từ các bản sao lưu tốt đã biết / được cho là sẽ khiến tôi quá khó để thử nó mà không có lý do chính đáng.
Tôi sẽ đánh giá cao bất kỳ lời khuyên nào để kiểm tra tiếp theo.
Cảm ơn bạn đã giúp đỡ.
Cập nhật : Đặt nhiều nỗ lực hơn trong việc tìm kiếm một số con trỏ trước của sự cố tôi đã tìm thấy phần sau trong syslog:
Sep 19 10:09:56 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Sep 19 10:09:56 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Sep 19 10:09:56 asgard ntop[7965]: **WARNING** packet truncated (10490->8232)
Sep 19 10:09:56 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Sep 19 10:09:56 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Sep 19 10:09:56 asgard ntop[7965]: **WARNING** packet truncated (17442->8232)
Sep 19 10:11:02 asgard ntop[7965]: **WARNING** packet truncated (11650->8232)
Sep 19 10:11:02 asgard ntop[7965]: **WARNING** packet truncated (10202->8232)
Sep 19 10:11:29 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Sep 19 10:13:27 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Sep 19 10:20:33 asgard ntop[7965]: **WARNING** packet truncated (8754->8232)
Tôi biết điều này được coi là không văn bản, nhưng nó dường như là một sự kiện hiếm. Cắt gói chỉ tồn tại vào ngày xảy ra sự cố thứ hai. Không nơi nào khác trong tất cả các tệp nhật ký có sẵn.