Làm thế nào để tìm nguồn gốc của độ trễ tăng?


14

Tôi đã có thiết lập giám sát trên một số thiết bị trong văn phòng của chúng tôi. Thời gian phản hồi ping đến các công tắc truy cập nhỏ thường là 1-4ms ... Tính đến 3 giờ sáng nay, trung bình đã tăng vọt lên 300ms.

Trường hợp nào người ta bắt đầu tìm kiếm trong một tình huống như thế này? Những điều tôi có thể quan sát trong công tắc để tìm nguồn gốc của độ trễ?

LƯU Ý: Không liên quan đến tải .. tất cả việc sử dụng băng thông liên kết là bình thường và không bị ảnh hưởng, hầu hết các liên kết đều được sử dụng rất ít. Ngoài ra - giám sát là cục bộ đối với các thiết bị báo cáo độ trễ do đó không có yếu tố mạng WAN ở đây.


3
Giả sử đây là một công tắc Cisco IOS ... Vui lòng đăng show proc cpu historycho công tắc với thời gian ping cao. Nếu CPU đó luôn ở mức cao hoặc tăng vọt một cách thường xuyên, hãy chạyshow proc cpu sort
Mike Pennington

Là độ trễ chỉ đối với mặt phẳng điều khiển chuyển đổi hoặc bạn có nhận được độ trễ tương tự khi bạn ping một cái gì đó phía sau công tắc không?
ytti

@MikePennington - imgur.com/a/gfX9q#0 - điều này rất tuyệt! Có vẻ như nó tăng đột biến khá cao mặc dù trung bình là thấp ..
AL

@Ytti - dù sao cũng không có ý định đăng bài này trên một dòng riêng biệt .. Vì vậy, tôi đã tìm hiểu sâu hơn về vấn đề này. Phản hồi cp <-> cp thực sự thấp từ phân phối đến truy cập, hoặc ít nhất là tại thời điểm tôi đã thử nghiệm. Từ một cổng cấp truy cập đến các thiết bị trên các thiết bị chuyển mạch lớp truy cập là nơi chúng ta đang thấy độ trễ cực cao.
AL

@ user1353, cảm ơn bạn ... rằng imgur mà bạn đã đăng không đủ cao để gây ra số lần ping tăng liên tục từ CPU trên công tắc đó
Mike Pennington

Câu trả lời:


6

Đầu tiên, độ trễ không liên quan trực tiếp đến băng thông. Có nhiều lý do tại sao một thiết bị sẽ trì hoãn một gói khác hơn là một liên kết bị tắc nghẽn.

Bạn đã thử một traceroute? Điều này sẽ cho bạn thấy độ trễ giữa các bước nhảy, nếu bạn đang tìm kiếm một ranh giới L3 như một nghi phạm.

Bạn cũng có thể kiểm tra xem liệu có bất kỳ thiết bị nào trong đường dẫn có mức sử dụng CPU / RAM đáng kể không.


Tôi đồng ý với Mierdin và cũng đề nghị MTR tiếp tục chạy một traceroute trong tình huống này. Liên kết Wikipedia: en.m.wikipedia.org/wiki/MTR_(software)
Brett Lykins

@Mierdin - Cảm ơn phản hồi của bạn, vì vậy không có yếu tố L3 nào ở đây, traceroute cho thấy phản hồi ban đầu cao khoảng 500ms, sau đó là 260ms đến thiết bị - những lần này cho mỗi lần thử trên cùng một bước nhảy, không phải cho nhiều lần hoa bia Xem bình luận của tôi cho MikePennington để biết thông tin liên quan đến CPU.
AL

3

nếu điều này chỉ dựa trên mạng LAN, có một vài điều bạn có thể làm để bắt đầu thử và tìm hiểu điều gì gây ra điều này:

  • Hiển thị lệnh lịch sử cpu : nếu mức sử dụng CPU rất cao, thì bạn cần xem quá trình nào gây ra điều này và có thể nhấn google với quá trình vi phạm.

  • hiển thị lệnh gỡ lỗi : một nguyên nhân phổ biến tôi đã tìm thấy là mọi người để lại các lệnh gỡ lỗi đang chạy trên công tắc. Một yêu thích phổ biến là kế toán IP bị bỏ lại trên các thiết bị đã được sử dụng quá mức. Sử dụng "hủy bỏ tất cả" để thoát khỏi các lỗi.

  • Khởi động lại : có thể không có khả năng vào ban ngày, nhưng sử dụng lệnh "tải lại" để hẹn giờ vào ban đêm hoặc cuối tuần. Bạn sẽ ngạc nhiên khi có bao nhiêu vấn đề khởi động lại nhanh có thể khắc phục.

  • đóng cổng trung kế - Nếu là công tắc L3, một vấn đề phổ biến khác mà tôi thấy là có quá nhiều lưu lượng sử dụng thiết bị này để định tuyến giữa các Vlan. Nếu có thể, tạm thời đóng một số cổng trung kế để xem điều này có làm giảm độ trễ không.

Thật tốt khi biết rằng ping của bạn có mức độ ưu tiên thấp, liên quan đến độ trễ và cả khi được CPU xử lý. Cũng có thể là một ý tưởng tốt để kiểm tra lại các cài đặt QoS của bạn và đảm bảo không có lỗi ngớ ngẩn nào gây ra điều này, nhiều như điều đó là không thể.


Phản hồi tuyệt vời, tôi đã kiểm tra gỡ lỗi chương trình và không thể khởi động lại vào lúc này.
AL

2

Tôi sử dụng xương rồng để theo dõi băng thông và openNMS để theo dõi độ trễ. Nếu bạn đang theo dõi tất cả các thiết bị được liên kết với công tắc này, bạn có thể thấy một hệ quả giữa việc sử dụng và độ trễ. (tôi biết bạn nói rằng đó không phải là vấn đề về băng thông, nhưng bạn chưa bao giờ) Tôi đã thấy các thiết bị chuyển mạch cấp thấp bị chùng xuống dưới mức sử dụng nặng, gây ra rất nhiều độ trễ. Bạn có bất kỳ thiết bị "câm" nào cho ăn công tắc này có thể là nguồn của độ võng mặc dù công tắc này không truyền nhiều lưu lượng. Ngoài ra với xương rồng, bạn có thể thăm dò mức độ sử dụng CPU và bạn có thể thấy tăng đột biến tại thời điểm trễ.

Như đã đề cập ở trên, MTR hoặc neotrace cũng hữu ích để theo dõi tình hình và bạn có thể thấy độ trễ bắt đầu từ đâu, có thể không phải là chính công tắc này.


0

Nếu điều này không xảy ra trên mạng LAN, bạn có thể giới hạn thông số "cổng wan", điều này sẽ buộc TDM tốt hơn. Hãy thử một cái gì đó chiếm 80% thông lượng maximun của bạn và xem nếu nó giúp. Bạn có thể cần phải gấp đôi tùy thuộc vào số lượng thiết bị đầu cuối.


Theo tôi hiểu OP đã nêu rõ trong ghi chú, rằng điều này không liên quan đến tải.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.