Trường đại học nhỏ nơi tôi làm việc đang gặp một số vấn đề mạng rất lạ. Tôi đang tìm kiếm bất kỳ lời khuyên hoặc ý tưởng ở đây. Chúng tôi đã ổn trong suốt mùa hè, nhưng rắc rối bắt đầu vài ngày sau khi sinh viên trở lại trường để bắt đầu học kỳ.
Triệu chứng
Triệu chứng chính là truy cập internet sẽ hoạt động, nhưng nó rất chậm ... thường đến mức hết thời gian. Ví dụ: một kết quả điển hình từ Speedtest.net sẽ trả về tải xuống .4Mbps, nhưng cho phép tốc độ tải lên 3 đến 8 Mb / giây. Các triệu chứng ít hơn có thể bao gồm việc truyền dữ liệu bị hạn chế nghiêm trọng đến và từ máy chủ tệp của chúng tôi hoặc thậm chí trong một số trường hợp không thể đăng nhập vào máy tính (không thể truy cập bộ điều khiển miền). Vấn đề vượt qua nhiều vlans và đã ảnh hưởng đến các thiết bị trên gần như mọi vlan chúng tôi hoạt động.
Vấn đề không ảnh hưởng đến tất cả các máy trên mạng. Một máy không bị ảnh hưởng thường sẽ thấy tải xuống ít nhất 11Mbps từ speedtest.net, và có lẽ nhiều hơn tùy thuộc vào các mẫu lưu lượng truy cập khuôn viên lớn hơn tại thời điểm đó.
Có một biến thể về vấn đề lớn hơn. Chúng tôi có một vlan nơi người dùng không thể đăng nhập vào gần như tất cả các máy. Nhân viên CNTT sẽ đăng nhập bằng tài khoản quản trị viên cục bộ (hoặc trong một số trường hợp thông tin đăng nhập được lưu trong bộ nhớ cache) và từ đó, việc phát hành / gia hạn hoặc ping cổng sẽ cho phép máy hoạt động ... trong một thời gian. Vấn đề phức tạp là vlan này bao gồm các phòng thí nghiệm máy tính của chúng tôi, sử dụng phần mềm có tên Deep Freeze để thiết lập lại hoàn toàn các ổ đĩa cứng sau khi khởi động lại. Nó có thể chỉ là cùng một vấn đề biểu hiện khác nhau vì dữ liệu cũ trên các máy không thay đổi vĩnh viễn thông tin cấp thấp trong nhiều tuần. Tuy nhiên, chúng tôi đã có thể giải quyết điều này bằng cách tạo ra một vlan mới và chuyển các phòng thí nghiệm sang bán buôn vlan mới.
Khởi xướng
Cuối cùng, chúng tôi nhận thấy rằng tất cả các máy bị ảnh hưởng đều có hợp đồng thuê dhcp gần đây. Chúng ta có thể dự đoán khi nào một máy sẽ trở nên "chậm" bằng cách xem khi nào hợp đồng thuê dhcp được đưa ra để đổi mới. Chúng tôi đã chơi với việc thiết lập thời gian thuê rất ngắn cho một vlan thử nghiệm, nhưng tất cả những gì đã làm là loại bỏ khả năng dự đoán khi nào máy sẽ trở nên chậm. Máy có IP tĩnh có khá nhiều luôn hoạt động bình thường. Tự phát hành / làm mới một địa chỉ sẽ không bao giờ khiến máy bị chậm. Trong thực tế, trong một số trường hợp, quy trình này đã được sửaMột cái máy ở trạng thái đó. Hầu hết thời gian, mặc dù, nó không giúp đỡ. Chúng tôi cũng nhận thấy rằng các máy di động như máy tính xách tay có khả năng trở nên chậm chạp khi chúng chuyển sang vlans mới. Không dây trong khuôn viên trường được chia thành các "khu vực", trong đó mỗi khu vực ánh xạ tới một tập hợp nhỏ các tòa nhà. Di chuyển đến một tòa nhà mới có thể đặt bạn trong một khu vực, do đó khiến bạn có được một địa chỉ mới. Một máy tiếp tục từ chế độ ngủ cũng rất có thể bị chậm.
Giảm nhẹ
Đôi khi, nhưng không phải lúc nào, xóa bộ đệm arp trên máy bị ảnh hưởng sẽ cho phép nó hoạt động bình thường trở lại. Như đã đề cập, việc phát hành / làm mới địa chỉ IP của máy cục bộ có thể khắc phục máy đó, nhưng nó không được bảo đảm. Ping cổng mặc định đôi khi cũng có thể giúp với một máy chậm.
Điều có vẻ giúp giảm thiểu vấn đề là xóa bộ đệm arp trên bộ chuyển đổi lớp 3 lõi của chúng tôi. Công tắc này được sử dụng cho hệ thống dhcp của chúng tôi làm cổng mặc định trên tất cả các vlans và nó xử lý định tuyến giữa các vlan. Mô hình là 3Com 4900SX. Để cố gắng giảm thiểu sự cố, chúng tôi đã đặt hết thời gian chờ bộ đệm trên công tắc xuống mức thấp nhất có thể, nhưng điều đó không có ích. Tôi cũng tập hợp một tập lệnh chạy cứ sau vài phút để tự động kết nối với công tắc và đặt lại bộ đệm. Thật không may, điều này không phải lúc nào cũng hoạt động và thậm chí có thể khiến một số máy kết thúc ở trạng thái chậm trong một thời gian ngắn (mặc dù những điều này dường như tự khắc phục sau vài phút). Chúng tôi hiện có một công việc được lên lịch chạy cứ sau 10 phút để buộc công tắc lõi xóa bộ nhớ cache ARP, nhưng điều này không hoàn hảo hoặc mong muốn.
Sinh sản
Bây giờ chúng ta có một máy kiểm tra mà chúng ta có thể buộc vào trạng thái chậm tùy ý. Nó được kết nối với một công tắc với các cổng được thiết lập cho mỗi vlans của chúng tôi. Chúng tôi làm cho máy hoạt động chậm bằng cách kết nối với các vlans khác nhau và sau một hoặc hai kết nối mới, nó sẽ bị chậm.
Điều đáng chú ý trong phần này là điều này đã xảy ra trước khi bắt đầu các điều khoản trước đó, nhưng trong quá khứ, vấn đề đã tự biến mất sau vài ngày. Nó đã tự giải quyết trước khi chúng tôi có cơ hội thực hiện nhiều công việc chẩn đoán ... do đó tại sao chúng tôi cho phép nó kéo dài quá lâu vào thời hạn này; kỳ vọng là đây sẽ là một tình huống ngắn ngủi.
Các yếu tố khác
Điều đáng nói là chúng tôi đã có khoảng nửa tá thiết bị chuyển mạch hoàn toàn thất bại trong năm qua. Đây chủ yếu là các 3Coms thời 2003/2004 (chủ yếu là 4200), tất cả được đưa vào cùng một lúc. Họ vẫn nên được bảo hành, mua HP đã khiến việc dịch vụ trở nên khó khăn. Chủ yếu là trong các nguồn cung cấp điện đã bị hỏng, nhưng trong một vài trường hợp, chúng tôi đã sử dụng nguồn điện từ một công tắc với một bo mạch chính bị hỏng để đưa một công tắc với nguồn điện bị hỏng trở lại. Hiện tại chúng tôi có tất cả các thiết bị UPS trên ba trong số bốn thiết bị chuyển mạch, nhưng đó không phải là trường hợp khi tôi bắt đầu hai năm rưỡi trước. Những hạn chế về ngân sách nghiêm trọng (chúng tôi đã nằm trong danh sách các tổ chức bị thách thức về tài chính của Ed trong một vài năm trở lại đây) đã buộc tôi phải tìm đến Netgear và TrendNet để thay thế,
Điều đáng nói là sự thay đổi lớn trên mạng của chúng tôi vào mùa hè này đã được chuyển từ một SSID không dây trong khuôn viên trường sang phương pháp phân vùng đã đề cập trước đó. Tôi không nghĩ đây là nguồn gốc của vấn đề, như tôi đã nói: chúng ta đã thấy điều này trước đây. Tuy nhiên, có thể điều này đang làm trầm trọng thêm vấn đề và có thể là lý do rất khó để cô lập.
Chẩn đoán
Thoạt đầu, chúng ta có vẻ rõ ràng, do tính chất thời gian và dai dẳng của vấn đề, rằng nguồn gốc của vấn đề là một cỗ máy sinh viên bị nhiễm (hoặc độc hại) thực hiện ngộ độc bộ đệm ARP. Tuy nhiên, nhiều lần cố gắng cô lập nguồn đã thất bại. Những nỗ lực này bao gồm nhiều dấu vết gói wireshark và thậm chí lấy toàn bộ các tòa nhà ngoại tuyến trong thời gian ngắn. Chúng tôi thậm chí không thể tìm thấy một khẩu súng ARP xấu. Dự đoán tốt nhất hiện tại của tôi là một công tắc lõi bị quá tải hoặc không hoạt động, nhưng tôi không chắc chắn về cách kiểm tra điều này và chi phí thay thế nó một cách mù quáng.
Một lần nữa, bất kỳ ý tưởng đánh giá cao.
Cập nhật: Công
tắc lõi được thay thế. Sau 4 ngày, mọi thứ đều hoạt động tốt ... nhưng tôi sẽ đợi mốc hai tuần trước khi giải quyết vấn đề.
mtr
có thể hữu ích ở đây