Chúng tôi có một máy chủ chạy Ubuntu 16.04 mà chúng tôi chạy rất nhiều thử nghiệm trên đó, với 4 xe và 2 bộ điều khiển RAID (mỗi bộ chứa đầy 1TB SSD). Chúng tôi đã chạy các công việc bằng cách sử dụng tất cả 64 lõi trong nhiều tháng mà không gặp vấn đề gì. Chúng tôi đã sử dụng nó trong hơn một năm mà không có vấn đề gì cho đến khi chúng tôi thử một khối lượng công việc mới.
Khi thực hiện một lượng lớn IO đĩa (hàng trăm GB đến TB) trong một khung thời gian ngắn, sever sẽ khởi động lại im lặng. Chúng tôi không thể tìm thấy khởi động lại trong bất kỳ nhật ký. Chạy "lần khởi động lại cuối cùng" thậm chí không nhận ra rằng việc khởi động lại đã xảy ra, nhưng kiểm tra thời gian hoạt động sẽ cho thấy nó đã khởi động lại gần đây.
Heavy Disk IO sẽ liên tục gây ra sự khởi động lại im lặng. Chúng tôi đã thử xây dựng lại phân vùng đột kích. Chúng tôi đã thay thế 1 ổ đĩa trông hơi lạ so với những ổ khác (nhưng dường như vẫn hoạt động). Và nâng cấp từ 14.04 lên 16.04. Chúng tôi cũng đã cập nhật chương trình cơ sở trên bộ điều khiển RAID và SSD, nhưng điều này không giúp được gì.
Việc khởi động lại vẫn xảy ra và chúng tôi không thực sự chắc chắn làm thế nào để tìm ra lý do tại sao. Dường như không có gì đang ghi lại một vấn đề, và tôi đã hy vọng ai đó ở đây đã nhìn thấy điều này trước đây hoặc biết nhiều hơn về nơi cần tìm ngoài syslog và dmesg (phần sau trống rỗng).