IO đĩa nặng gây ra Reboot im lặng?


0

Chúng tôi có một máy chủ chạy Ubuntu 16.04 mà chúng tôi chạy rất nhiều thử nghiệm trên đó, với 4 xe và 2 bộ điều khiển RAID (mỗi bộ chứa đầy 1TB SSD). Chúng tôi đã chạy các công việc bằng cách sử dụng tất cả 64 lõi trong nhiều tháng mà không gặp vấn đề gì. Chúng tôi đã sử dụng nó trong hơn một năm mà không có vấn đề gì cho đến khi chúng tôi thử một khối lượng công việc mới.

Khi thực hiện một lượng lớn IO đĩa (hàng trăm GB đến TB) trong một khung thời gian ngắn, sever sẽ khởi động lại im lặng. Chúng tôi không thể tìm thấy khởi động lại trong bất kỳ nhật ký. Chạy "lần khởi động lại cuối cùng" thậm chí không nhận ra rằng việc khởi động lại đã xảy ra, nhưng kiểm tra thời gian hoạt động sẽ cho thấy nó đã khởi động lại gần đây.

Heavy Disk IO sẽ liên tục gây ra sự khởi động lại im lặng. Chúng tôi đã thử xây dựng lại phân vùng đột kích. Chúng tôi đã thay thế 1 ổ đĩa trông hơi lạ so với những ổ khác (nhưng dường như vẫn hoạt động). Và nâng cấp từ 14.04 lên 16.04. Chúng tôi cũng đã cập nhật chương trình cơ sở trên bộ điều khiển RAID và SSD, nhưng điều này không giúp được gì.

Việc khởi động lại vẫn xảy ra và chúng tôi không thực sự chắc chắn làm thế nào để tìm ra lý do tại sao. Dường như không có gì đang ghi lại một vấn đề, và tôi đã hy vọng ai đó ở đây đã nhìn thấy điều này trước đây hoặc biết nhiều hơn về nơi cần tìm ngoài syslog và dmesg (phần sau trống rỗng).


1
Bạn có theo dõi nhiệt độ không?
Kamil Maciorowski

Nếu không có bản ghi của nó, làm thế nào bạn có thể chắc chắn khởi động lại đã xảy ra? Bạn có thấy màn hình BIOS không? Có thể các chương trình đang hoạt động đã chấm dứt mà không cần khởi động lại toàn bộ hệ thống. Rất đáng để kiểm tra dữ liệu SMART trên tất cả các đĩa của bạn, nhưng đặc biệt là trên đĩa trao đổi của bạn.
AFH

@KamilMaciorowski không, tôi không biết phải làm thế nào. Nhưng máy chủ đang chạy trong một trung tâm mát mẻ.
Raff.Edward

@AFH SMART cho biết mọi thứ đều ổn trên tất cả các đĩa. Quá trình khởi động lại xảy ra khi thời gian khởi động hiển thị quá trình khởi động lại và nếu chúng ta nhìn vào màn hình BIOS thì nó đang khởi động lại và chúng ta thấy quá trình khởi động lại trong nhật ký. Nhưng trước khi khởi động lại xảy ra, máy chủ không cho biết rằng nó sẽ khởi động lại
Raff.Edward

@KamilMaciorowski đồng nghiệp của tôi vừa kiểm tra. CPU và bộ nhớ nằm trong phạm vi bình thường. Power draw thấp hơn khối lượng công việc chúng tôi đã thực hiện trước đó. Nhiệt độ vỏ và bo mạch chủ nằm ở nửa dưới của khoảng nhiệt độ được khuyến nghị. Dường như không có bất kỳ báo cáo nào về bộ điều khiển RAID hoặc nhiệt độ SSD.
Raff.Edward
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.