Gần đây chúng tôi đã chuyển một số cơ sở hạ tầng sản xuất của mình sang Kubernetes. Nhiều nhóm được tiếp xúc thông qua một LoadBalancer
dịch vụ trên AWS. Điều này tạo ra ELB, đăng ký từng nút trong cụm với ELB và cấu hình một cổng nút để ánh xạ các cổng ELB thành các nhóm. Các ứng dụng của chúng tôi có thể kết nối thông qua bộ cân bằng tải, nhưng số lượng BackendConnectionErrors
(theo báo cáo của cloudwatch) cao hơn 5-7 lần so với số lượng yêu cầu. Tôi không chắc làm thế nào để gỡ lỗi này.
Số lượng lỗi kết nối phụ trợ được báo cáo không tương quan với bất kỳ số liệu lỗi lớp ứng dụng nào. Điều này khiến tôi kết luận rằng đó là một số vấn đề cơ sở hạ tầng có lẽ được khuếch đại bởi các lần thử lại. Tuy nhiên tôi không biết làm thế nào để gỡ lỗi vấn đề này.
Giả thuyết của tôi là một hoặc cả hai:
- Một số cài đặt AWS kỳ lạ bị thiếu trên ELB để quản lý kết nối
- Các nút trong cụm có một số cài đặt sysctl hoặc cấu hình mạng khác đang chặn số lượng kết nối đến qua ELB
- Một số phần trung gian của cơ sở hạ tầng mạng gây rối với các kết nối.
Câu hỏi của tôi là: làm thế nào tôi có thể gỡ lỗi / theo dõi một số số liệu liên quan đến TCP / mạng trên các phiên bản trong cụm?
Thông tin thêm về số liệu CloudWatch được đề cập.