Vấn đề thông lượng mạng (liên quan đến ARP)


9

Trường đại học nhỏ nơi tôi làm việc đang gặp một số vấn đề mạng rất lạ. Tôi đang tìm kiếm bất kỳ lời khuyên hoặc ý tưởng ở đây. Chúng tôi đã ổn trong suốt mùa hè, nhưng rắc rối bắt đầu vài ngày sau khi sinh viên trở lại trường để bắt đầu học kỳ.

Triệu chứng

Triệu chứng chính là truy cập internet sẽ hoạt động, nhưng nó rất chậm ... thường đến mức hết thời gian. Ví dụ: một kết quả điển hình từ Speedtest.net sẽ trả về tải xuống .4Mbps, nhưng cho phép tốc độ tải lên 3 đến 8 Mb / giây. Các triệu chứng ít hơn có thể bao gồm việc truyền dữ liệu bị hạn chế nghiêm trọng đến và từ máy chủ tệp của chúng tôi hoặc thậm chí trong một số trường hợp không thể đăng nhập vào máy tính (không thể truy cập bộ điều khiển miền). Vấn đề vượt qua nhiều vlans và đã ảnh hưởng đến các thiết bị trên gần như mọi vlan chúng tôi hoạt động.

Vấn đề không ảnh hưởng đến tất cả các máy trên mạng. Một máy không bị ảnh hưởng thường sẽ thấy tải xuống ít nhất 11Mbps từ speedtest.net, và có lẽ nhiều hơn tùy thuộc vào các mẫu lưu lượng truy cập khuôn viên lớn hơn tại thời điểm đó.

Có một biến thể về vấn đề lớn hơn. Chúng tôi có một vlan nơi người dùng không thể đăng nhập vào gần như tất cả các máy. Nhân viên CNTT sẽ đăng nhập bằng tài khoản quản trị viên cục bộ (hoặc trong một số trường hợp thông tin đăng nhập được lưu trong bộ nhớ cache) và từ đó, việc phát hành / gia hạn hoặc ping cổng sẽ cho phép máy hoạt động ... trong một thời gian. Vấn đề phức tạp là vlan này bao gồm các phòng thí nghiệm máy tính của chúng tôi, sử dụng phần mềm có tên Deep Freeze để thiết lập lại hoàn toàn các ổ đĩa cứng sau khi khởi động lại. Nó có thể chỉ là cùng một vấn đề biểu hiện khác nhau vì dữ liệu cũ trên các máy không thay đổi vĩnh viễn thông tin cấp thấp trong nhiều tuần. Tuy nhiên, chúng tôi đã có thể giải quyết điều này bằng cách tạo ra một vlan mới và chuyển các phòng thí nghiệm sang bán buôn vlan mới.

Khởi xướng

Cuối cùng, chúng tôi nhận thấy rằng tất cả các máy bị ảnh hưởng đều có hợp đồng thuê dhcp gần đây. Chúng ta có thể dự đoán khi nào một máy sẽ trở nên "chậm" bằng cách xem khi nào hợp đồng thuê dhcp được đưa ra để đổi mới. Chúng tôi đã chơi với việc thiết lập thời gian thuê rất ngắn cho một vlan thử nghiệm, nhưng tất cả những gì đã làm là loại bỏ khả năng dự đoán khi nào máy sẽ trở nên chậm. Máy có IP tĩnh có khá nhiều luôn hoạt động bình thường. Tự phát hành / làm mới một địa chỉ sẽ không bao giờ khiến máy bị chậm. Trong thực tế, trong một số trường hợp, quy trình này đã được sửaMột cái máy ở trạng thái đó. Hầu hết thời gian, mặc dù, nó không giúp đỡ. Chúng tôi cũng nhận thấy rằng các máy di động như máy tính xách tay có khả năng trở nên chậm chạp khi chúng chuyển sang vlans mới. Không dây trong khuôn viên trường được chia thành các "khu vực", trong đó mỗi khu vực ánh xạ tới một tập hợp nhỏ các tòa nhà. Di chuyển đến một tòa nhà mới có thể đặt bạn trong một khu vực, do đó khiến bạn có được một địa chỉ mới. Một máy tiếp tục từ chế độ ngủ cũng rất có thể bị chậm.

Giảm nhẹ

Đôi khi, nhưng không phải lúc nào, xóa bộ đệm arp trên máy bị ảnh hưởng sẽ cho phép nó hoạt động bình thường trở lại. Như đã đề cập, việc phát hành / làm mới địa chỉ IP của máy cục bộ có thể khắc phục máy đó, nhưng nó không được bảo đảm. Ping cổng mặc định đôi khi cũng có thể giúp với một máy chậm.

Điều có vẻ giúp giảm thiểu vấn đề là xóa bộ đệm arp trên bộ chuyển đổi lớp 3 lõi của chúng tôi. Công tắc này được sử dụng cho hệ thống dhcp của chúng tôi làm cổng mặc định trên tất cả các vlans và nó xử lý định tuyến giữa các vlan. Mô hình là 3Com 4900SX. Để cố gắng giảm thiểu sự cố, chúng tôi đã đặt hết thời gian chờ bộ đệm trên công tắc xuống mức thấp nhất có thể, nhưng điều đó không có ích. Tôi cũng tập hợp một tập lệnh chạy cứ sau vài phút để tự động kết nối với công tắc và đặt lại bộ đệm. Thật không may, điều này không phải lúc nào cũng hoạt động và thậm chí có thể khiến một số máy kết thúc ở trạng thái chậm trong một thời gian ngắn (mặc dù những điều này dường như tự khắc phục sau vài phút). Chúng tôi hiện có một công việc được lên lịch chạy cứ sau 10 phút để buộc công tắc lõi xóa bộ nhớ cache ARP, nhưng điều này không hoàn hảo hoặc mong muốn.

Sinh sản

Bây giờ chúng ta có một máy kiểm tra mà chúng ta có thể buộc vào trạng thái chậm tùy ý. Nó được kết nối với một công tắc với các cổng được thiết lập cho mỗi vlans của chúng tôi. Chúng tôi làm cho máy hoạt động chậm bằng cách kết nối với các vlans khác nhau và sau một hoặc hai kết nối mới, nó sẽ bị chậm.

Điều đáng chú ý trong phần này là điều này đã xảy ra trước khi bắt đầu các điều khoản trước đó, nhưng trong quá khứ, vấn đề đã tự biến mất sau vài ngày. Nó đã tự giải quyết trước khi chúng tôi có cơ hội thực hiện nhiều công việc chẩn đoán ... do đó tại sao chúng tôi cho phép nó kéo dài quá lâu vào thời hạn này; kỳ vọng là đây sẽ là một tình huống ngắn ngủi.

Các yếu tố khác

Điều đáng nói là chúng tôi đã có khoảng nửa tá thiết bị chuyển mạch hoàn toàn thất bại trong năm qua. Đây chủ yếu là các 3Coms thời 2003/2004 (chủ yếu là 4200), tất cả được đưa vào cùng một lúc. Họ vẫn nên được bảo hành, mua HP đã khiến việc dịch vụ trở nên khó khăn. Chủ yếu là trong các nguồn cung cấp điện đã bị hỏng, nhưng trong một vài trường hợp, chúng tôi đã sử dụng nguồn điện từ một công tắc với một bo mạch chính bị hỏng để đưa một công tắc với nguồn điện bị hỏng trở lại. Hiện tại chúng tôi có tất cả các thiết bị UPS trên ba trong số bốn thiết bị chuyển mạch, nhưng đó không phải là trường hợp khi tôi bắt đầu hai năm rưỡi trước. Những hạn chế về ngân sách nghiêm trọng (chúng tôi đã nằm trong danh sách các tổ chức bị thách thức về tài chính của Ed trong một vài năm trở lại đây) đã buộc tôi phải tìm đến Netgear và TrendNet để thay thế,

Điều đáng nói là sự thay đổi lớn trên mạng của chúng tôi vào mùa hè này đã được chuyển từ một SSID không dây trong khuôn viên trường sang phương pháp phân vùng đã đề cập trước đó. Tôi không nghĩ đây là nguồn gốc của vấn đề, như tôi đã nói: chúng ta đã thấy điều này trước đây. Tuy nhiên, có thể điều này đang làm trầm trọng thêm vấn đề và có thể là lý do rất khó để cô lập.

Chẩn đoán

Thoạt đầu, chúng ta có vẻ rõ ràng, do tính chất thời gian và dai dẳng của vấn đề, rằng nguồn gốc của vấn đề là một cỗ máy sinh viên bị nhiễm (hoặc độc hại) thực hiện ngộ độc bộ đệm ARP. Tuy nhiên, nhiều lần cố gắng cô lập nguồn đã thất bại. Những nỗ lực này bao gồm nhiều dấu vết gói wireshark và thậm chí lấy toàn bộ các tòa nhà ngoại tuyến trong thời gian ngắn. Chúng tôi thậm chí không thể tìm thấy một khẩu súng ARP xấu. Dự đoán tốt nhất hiện tại của tôi là một công tắc lõi bị quá tải hoặc không hoạt động, nhưng tôi không chắc chắn về cách kiểm tra điều này và chi phí thay thế nó một cách mù quáng.

Một lần nữa, bất kỳ ý tưởng đánh giá cao.

Cập nhật: Công
tắc lõi được thay thế. Sau 4 ngày, mọi thứ đều hoạt động tốt ... nhưng tôi sẽ đợi mốc hai tuần trước khi giải quyết vấn đề.


Bạn có thấy mất gói trên các máy bị ảnh hưởng? Nếu vậy, mất gói xảy ra ở đâu? mtrcó thể hữu ích ở đây
EEAA

3
Điều này có vẻ đáng ngờ như thể một trong các thiết bị chuyển mạch của bạn bị lỗi, làm hỏng bảng arp của nó và đang truyền các mục bị hỏng sang các công tắc khác. Do đó giảm nhẹ một phần khi các bảng được xóa trên lõi L3. Tôi thực sự khuyên bạn nên đặt lại TẤT CẢ các công tắc trước khi tiếp tục khắc phục sự cố. Với một chút may mắn, điều này sẽ xóa hoàn toàn vấn đề. Nếu một công tắc thực sự bị lỗi, hy vọng nó không thành công trong chẩn đoán bật nguồn sau khi khởi động lại. PS dao động nhẹ trong lưới điện có thể có hiệu ứng này. Nếu các thiết bị chuyển mạch của bạn không có trên UPS có thể là nguyên nhân gốc.
Tonny

@ErikA chúng tôi có một số mất gói. Tôi sẽ xem liệu tôi có thể có được dấu vết tốt hơn không ... nhưng việc mất gói đến từ mọi vị trí trong khuôn viên trường, có nghĩa là điểm kết nối chung duy nhất là công tắc lõi và công tắc được kết nối với máy chủ của chúng tôi.
Joel Coel

1
@Tonny Chúng tôi đã thiết lập lại tất cả (tốt, gần như tất cả) các công tắc ít nhất hai lần để khắc phục sự cố. Điều đó dường như đã làm giảm (không loại bỏ) các khiếu nại trong khoảng một ngày rưỡi. Chúng tôi có khoảng 40 đơn vị chuyển đổi, với các thiết bị UPS cho tất cả trừ ba hoặc bốn. Vấn đề chính ở đây là tất cả các thiết bị chuyển mạch của chúng tôi đã được cài đặt cùng một lúc và chúng tôi đã có 6 lỗi hoàn toàn trong năm qua, vì vậy có rất nhiều sự tin cậy cho điều đó.
Joel Coel

1
Tôi không có bất kỳ trải nghiệm 3com nào, nhưng có lẽ có một cách để giới hạn số lượng địa chỉ mac được học từ một cổng nhất định. Bạn có thể làm điều này trên tất cả các cổng truy cập cho các máy sinh viên trong trường hợp ai đó đang tràn ngập biến thiết bị chuyển mạch của bạn thành trung tâm.
Dos xấu

Câu trả lời:


2

Tham gia,

Vì bạn đã thiết lập trung kế và có thể nhân đôi vấn đề theo ý muốn. Cài đặt Wireshark trên máy tính xách tay và nhân bản / nối một cổng đường lên. Nếu bạn thấy tốc độ gói trên 10.000 hoặc sử dụng cổng gần tốc độ tối đa, bạn có vấn đề.

Bạn có thể có một vấn đề phần cứng / cây bao trùm xấu. Thông thường tôi đã tìm thấy người dùng cắm cả hai nics trên máy của họ "để có thêm thông lượng".

Thông thường đối với các vấn đề về cây Spanning, bạn có thể bật phát hiện vòng lặp hoặc giới hạn phát sóng trên mỗi cổng từ nhà cung cấp của bạn. Điều này sẽ giết bất kỳ cổng với một vòng lặp được tìm thấy. Bạn cũng có thể bật "bảo vệ bpdu" có nghĩa là vô hiệu hóa cổng mà bpdu đã nhận được và ném lỗi vào các máy thu bẫy syslog / snmp.

Joe


1

Tôi đã thấy các vấn đề tương tự như vậy trước đây và nó là một vòng lặp trong mạng LAN, gây ra sự hỗn loạn và bão hòa của toàn bộ mạng con (có lẽ là do lưu lượng phát sóng do chuyển đổi nhìn thấy MAC của chính nó trên một cổng bổ sung).

EDIT: Ngoài ra, điều này là phổ biến tại các cơ sở giáo dục (hai trong số các công việc sysadmin trước đây của tôi) vì các công chúa nhỏ thích quậy phá với dây cáp / ổ cắm ...


Chúng tôi đã dành rất nhiều thời gian để kiểm tra chính xác điều này, nhưng cuối cùng đã loại trừ nó.
Joel Coel

0

Âm thanh với tôi khi bạn có một số phần cứng xấu gây ra cơn bão phát sóng. Sử dụng Wireshark để xem các chương trình phát sóng và tìm một máy chủ gây rắc rối cho bạn ...


Rất khó có thể như vậy nếu một số máy hoạt động tốt và một số khác thì không. Một cơn bão phát sóng sẽ khiến toàn bộ Vlan phải quỳ xuống ngay lập tức.
Paul Gear

0

Ý tưởng của Joe là một ý tưởng tốt, nhưng cho rằng nó không có khả năng là một cơn bão phát sóng tạo ra vấn đề của bạn (tôi nghĩ rằng bạn đang đi đúng hướng với ngộ độc bộ đệm ARP hoặc một vấn đề tương tự; thậm chí có thể là xung đột địa chỉ IP), nó có lẽ sẽ không giải quyết được vấn đề.

Một kỹ thuật liên quan để sử dụng kiểm tra ARP và DHCP động, nếu các thiết bị chuyển mạch của bạn hỗ trợ nó. Nếu bạn bật tính năng này, các công tắc sẽ xem các giao dịch DHCP và chỉ cho phép các mục ARP khớp với các mục đã biết trong cơ sở dữ liệu DHCP hoặc các mục mà bạn đã chỉ định thủ công.

Nếu các thiết bị chuyển mạch của bạn không có tính năng này, một tùy chọn khác để theo dõi nó là arpwatch tiện ích Linux - nó sẽ theo dõi tất cả các yêu cầu ARP và cho bạn biết khi nào thông báo thay đổi ánh xạ IP-MAC.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.