Chúng tôi đã chạy một vài trang web ngoài cơ sở hạ tầng Amazons AWS trong khoảng hai năm nay và khoảng hai ngày trước, máy chủ web bắt đầu ngừng hoạt động một hoặc hai lần một ngày với lỗi duy nhất tôi có thể tìm thấy:
HTTP/1.1 503 Service Unavailable: Back-end server is at capacity
Không có báo động (CPU / Đĩa IO / DB Conn) đang được CloudWatch kích hoạt. Tôi đã thử truy cập trang web thông qua IP đàn hồi để bỏ qua ELB và nhận được điều này:
HTTP request sent, awaiting response... Read error (Connection reset by peer) in headers. Retrying.
Tôi không thấy bất cứ điều gì khác thường trong nhật ký apache và xác minh rằng chúng đang được xoay đúng. Tôi không gặp vấn đề gì khi truy cập vào máy khi nó "xuống" thông qua SSH và nhìn vào danh sách quy trình tôi thấy 151 quy trình apache2 xuất hiện bình thường đối với tôi. Khởi động lại apache tạm thời khắc phục vấn đề. Máy này hoạt động như một máy chủ web đằng sau ELB. Bất kỳ đề xuất sẽ được đánh giá rất cao.
Trung bình sử dụng CPU: 7,45%, tối thiểu: 0,00%, tối đa: 25,82%
Sử dụng bộ nhớ Trung bình: 11,04%, Tối thiểu: 8,76%, Tối đa: 13,84%
Hoán đổi trung bình sử dụng: Không áp dụng, Tối thiểu: Không áp dụng, Tối đa: Không áp dụng
Sử dụng không gian đĩa cho / dev / xvda1 được gắn trên / Trung bình: 62,18%, Tối thiểu: 53,39%, Tối đa: 65,49%
Hãy để tôi làm rõ Tôi nghĩ rằng vấn đề là do cá thể EC2 chứ không phải ELB tôi chỉ không muốn loại trừ mặc dù tôi không thể truy cập IP đàn hồi. Tôi nghi ngờ ELB chỉ trả về kết quả đánh vào thể hiện EC2 thực tế.
Cập nhật: 2014-08-26 Tôi nên cập nhật điều này sớm hơn nhưng "cách khắc phục" là chụp nhanh ví dụ "xấu" và bắt đầu AMI kết quả. Nó đã không đi xuống kể từ đó. Tôi đã xem xét kiểm tra sức khỏe khi tôi vẫn gặp vấn đề và có thể vào trang kiểm tra sức khỏe ( curl http://localhost/page.html
) ngay cả khi tôi gặp vấn đề về năng lực từ bộ cân bằng tải. Tôi không tin đó là vấn đề kiểm tra sức khỏe nhưng vì không ai, kể cả Amazon, có thể cung cấp câu trả lời tốt hơn nên tôi đánh dấu nó là câu trả lời. Cảm ơn bạn.
Cập nhật: 2015-05-06 Tôi nghĩ rằng tôi sẽ quay lại đây và nói rằng một phần của vấn đề mà bây giờ tôi tin chắc là cài đặt kiểm tra sức khỏe. Tôi không muốn loại trừ sự cố của họ với AMI vì nó chắc chắn đã tốt hơn sau khi AMI thay thế được đưa ra nhưng tôi phát hiện ra rằng kiểm tra sức khỏe của chúng tôi là khác nhau đối với mỗi bộ cân bằng tải và là vấn đề gặp nhiều rắc rối nhất đã có một ngưỡng thực sự không lành mạnh và thời gian chờ phản hồi. Lưu lượng truy cập của chúng tôi có xu hướng tăng đột biến và tôi nghĩ giữa các thiết lập kiểm tra sức khỏe tích cực và tăng đột biến trong giao thông, đó là một cơn bão hoàn hảo.