Thứ tự đầu tiên: Nó có đáp ứng không?
Nếu bạn không thể đăng nhập, sẽ có nhiều vấn đề lớn hơn xảy ra. Điều này thường có hai loại: lỗi phần cứng và lỗi phần mềm. Cả hai đều có khả năng thảm họa. Để ngăn ngừa lỗi DFA, trước tiên hãy kiểm tra tình trạng phần cứng chung - một cái nhìn lướt qua đơn giản thường sẽ đủ.
Thứ hai: Các cấu trúc cơ bản của hệ thống có sức khỏe và trật tự tốt không?
Kiểm tra "Bộ ba vàng" của các hệ thống:
- Đủ thời gian CPU là miễn phí để xử lý
- Đủ dung lượng đĩa trống để lưu trữ
- Đủ bộ nhớ là miễn phí cho khối lượng công việc
Trong vài thập kỷ qua, bộ ba đã mở rộng thành một "bộ tứ" bao gồm thông tin liên lạc (kết nối mạng):
- Kết nối là chức năng, đáp ứng và có năng lực
Lệnh thứ ba: mức độ nghiêm trọng của vấn đề là gì?
Những chương trình hoặc dịch vụ bị ảnh hưởng? Theo thứ tự mức độ nghiêm trọng giảm dần, nó có tính hệ thống (toàn hệ thống), phân cụm (một nhóm chương trình) hay bị cô lập (một chương trình cụ thể)? Các cụm chương trình thường bị vấp ngã vì một dịch vụ cơ bản cụ thể đã bị lỗi hoặc không phản hồi. Các vấn đề mang tính hệ thống đôi khi liên quan đến vấn đề này (nghĩ rằng xung đột DNS hoặc IP) nhưng biết nơi để tìm thường là chìa khóa.
Thứ tư: Các công cụ chẩn đoán cung cấp dữ liệu hữu ích có liên quan đến vấn đề không?
Bây giờ bạn đã có thông tin về sức khỏe của hệ thống (đơn hàng thứ hai) và những phần nào của hệ thống đang gặp sự cố (đơn hàng thứ ba), điều này sẽ giúp bạn dễ dàng thu hẹp vấn đề ở đâu.
Thông báo lỗi hoặc tệp nhật ký nên là một điểm chung trong hành trình này.
Các vấn đề về CPU:
Không gian đĩa / vấn đề IO:
- df
- du
- lsof
- i điều hòa
- vmstat
Vấn đề bộ nhớ:
Các vấn đề kết nối:
- ping
- tuyến đường (và arp và rarp và bạn bè)
- iptables, ipchains, ipfw (dành cho những người BSD ngoài kia)
- theo dõi hoặc mtr
- máy chủ, nslookup hoặc đào
- netstat
Khiếu nại phổ biến nhất (mà tôi nghe thấy):
Email không được gửi đủ nhanh (hơn một phút từ khi gửi đến nhận bởi người nhận) hoặc, email đang từ chối nỗ lực gửi của tôi. Điều này thường đi xuống bộ giới hạn tốc độ trong Postfix khởi động trong cơn bão spam, ảnh hưởng đến khả năng chấp nhận phân phối nội bộ.
Một ví dụ thực tế:
Tuy nhiên, đây không phải là luôn luôn như vậy. Một lần, vấn đề vẫn tồn tại bất kể dịch vụ khởi động lại; Vì vậy, sau 3 phút, đã đến lúc bắt đầu tìm kiếm xung quanh. CPU đã bận nhưng dưới 100%, nhưng tải đã tăng lên 15 trên một hộp chỉ có 2 lõi và đang đe dọa sẽ tăng cao hơn. Lệnh hàng đầu tiết lộ rằng hệ thống thư bị quá tải, cùng với trình quét thư, nhưng không có quy trình con nào được nhìn thấy. Đó là manh mối - lệnh xếp hàng thư (mailq) hiển thị hơn 150 thư chưa được gửi, hơn 80% trong số đó là thư rác, trong 20 phút cuối. Điều chỉnh nhanh để giảm bộ giới hạn tốc độ (giúp giảm tốc độ tiếp nhận của cơn bão thư rác) đồng thời tăng số lượng quy trình quét email con (để giúp xử lý tồn đọng), sau đó là khởi động lại dịch vụ, giải quyết vấn đề và hệ thống có thể để hoàn thành việc giao hàng trong một thời gian ngắn.
Nguyên nhân của vấn đề là do quá trình cha mẹ của amavis đã chết, và các quá trình con cuối cùng đã chạy hết tiến trình của chúng (chúng tự chấm dứt sau rất nhiều lần quét để tránh rò rỉ bộ nhớ). Vì vậy, đã có các quy trình SMTP trong postfix cố gắng liên hệ với ... không khí mỏng ... để thực hiện quét thư rác / vi-rút cần thiết. Bản phân phối tôi đang sử dụng có các gói lỗi thời sẽ không bao giờ được cập nhật; vì quá trình cài đặt sẽ được thay thế trong một năm hoặc lâu hơn, tôi đã tự "cài đặt" quá trình cài đặt lên phiên bản mới nhất, bao gồm một số sửa lỗi. Tôi đã không có vấn đề tương tự kể từ đó.