Làm thế nào tôi phá vỡ (một nửa) mạng của tôi?

Tôi đang tìm kiếm một số lời khuyên sau sự kiện để sự kiện này không xảy ra lần nữa.

Chúng tôi có lõi mạng gồm hai thiết bị chuyển mạch Cisco 4500x, được định cấu hình cho dự phòng VSS. Từ những thứ đó, chúng tôi có các thiết bị iSCSI, HP bladecenter cho vSphere của chúng tôi, cộng với các liên kết tổng hợp đến các công tắc truy cập người dùng của chúng tôi và một cặp 4948e cho các thiết bị bằng đồng trong phòng máy chủ của chúng tôi. Ngoài 4948, chúng tôi có một cặp 2960 thiết bị chuyển mạch cho hai liên kết ISP và một cặp ASA làm tường lửa. Dự phòng khá tốt, ngoại trừ rất nhiều thiết bị kết nối với 4948e chỉ có các NIC duy nhất - chỉ có rất nhiều chúng ta có thể làm.

Chúng tôi đang chuẩn bị thay thế các công tắc truy cập người dùng hiện tại của chúng tôi (Cực cũ) bằng Meraki. Chúng tôi cũng đang triển khai AP Meraki để thay thế Arubas hiện tại của chúng tôi. Một phần của dự án không dây liên quan đến việc tạo ra một số Vlan và mạng con mới, để quản lý AP và không dây cho khách.

Chúng tôi có hai Vlan được xác định (20 và 40) trên 4500x không được sử dụng ở bất kỳ đâu - xác nhận rằng các mạng con trống, không có cổng nào sử dụng chúng, v.v. Tôi đã đi vào 4500x và phát hành " no interface vlan 20", và sau đó xây dựng lại nó bằng mạng con Tôi muốn Sau đó tôi đã thêm nó vào hai cổng 10Gb được kết nối với Meraki

switchport trunk allowed <previous list plus two VLANs above plus existing wireless VLAN>

Tôi nhận thấy rằng 20 và 40 Vlan đã ngừng hoạt động, vì vậy tôi đã ban hành no shutdownchúng. Tôi đã mất quyền truy cập vào Merakis tại thời điểm đó, vì vậy tôi nhận ra rằng tôi đã không thêm Vlan vào giao diện kênh cổng cho liên kết đó.

Một nửa môi trường của chúng tôi đã trở nên không thể truy cập vào thời điểm này

Liên kết Internet của chúng tôi đã rất flakey. Điện thoại VoIP Avaya của chúng tôi không thể quay số vào hoặc ra. Chúng tôi có một vài thiết bị iSCSI được kết nối bằng đồng trở nên không khả dụng - không mất điện cho bất kỳ thứ gì mà người dùng phải đối mặt, nhưng các bản sao lưu và lưu trữ thư của chúng tôi đã bị ảnh hưởng. Tôi đã đi vào phòng máy chủ và ngắt kết nối Merakis khỏi 4500x (rút cả hai cổng sợi 10Gb) trong trường hợp tôi đã tạo ra một vòng lặp - không thay đổi. Tôi thừa nhận chỉ đơn giản là nhìn chằm chằm vào điều này một lúc tại thời điểm đó.

Tôi kéo Orion lên và lưu ý rằng một trong những công tắc bên ngoài của chúng tôi (Cat2960) và một trong những cặp ASA của chúng tôi cũng bị hỏng. Rõ ràng là chúng tôi đã bị mất kết nối mạng LAN một phần, nhưng cặp ASA cũng được kết nối với nhau và các đường lên của chúng không bị hỏng, vì vậy chúng không chuyển sang những gì thiết bị nội bộ của chúng tôi có thể đạt được. Tôi tắt ASA "xuống" và internet có thể truy cập trở lại.

Tôi đã gọi cho TAC, và sau vài giờ vật lộn với công nghệ, người đã liên tục đánh lừa mọi cấu hình cổng cho mỗi máy chủ bị giảm, tôi đã cho anh ta xem trên 4500x, tôi đã đăng nhập vào một trong 4948e của chúng tôi và cho thấy cách nó không thể ping mọi thứ được kết nối trực tiếp và lên - một trong những thiết bị iSCSI đồng dựa trên Windows của chúng tôi, giao diện iLO trên bladecenter của chúng tôi, v.v.

Anh ta đã xem qua các bản ghi và không tìm thấy gì, nhưng tại thời điểm này anh ta nói "Trông giống như một con bọ cây bao trùm ngay cả khi tôi không thấy điều đó trong nhật ký", vì vậy chúng tôi đã khởi động lại 4948e và tất cả trực tiếp Các máy chủ được kết nối đã quay lại ngay - bao gồm cả tủ Avaya, vì vậy điện thoại của chúng tôi bắt đầu hoạt động trở lại. Chúng tôi vẫn gặp sự cố trong các thiết bị kết nối sợi 4500x - đường dẫn chết, vì tất cả đều dư thừa. Anh ta muốn quay vòng nó một cách vô duyên, nhưng điều này có tất cả 10 Gbit iSCSI của chúng tôi và điều đó sẽ khiến môi trường vSphere của chúng tôi (về cơ bản là tất cả các máy chủ của chúng tôi) có một tuần tồi tệ. Tôi đã nói chuyện với anh ấy về việc thực hiện chuyển đổi dự phòng duyên dáng, trong đó giải quyết các vấn đề còn lại.

TL; DR: Tôi đã thực hiện một thay đổi khá vô hại đối với cốt lõi của chúng tôi và gây ra một vấn đề gớm ghiếc. Có phải tôi đã mắc một lỗi cấu hình đáng lẽ phải được dự đoán là gây ra điều này - ví dụ: nếu tôi không tắt Vlan trước và thêm chúng vào portchannel và sau đó là các cổng, điều này có tránh được không? Công nghệ của Cisco đã không nói rằng; ông nói, với thời gian tăng hơn một năm và các phiên bản iOS cũ, những tình huống như thế này không gây ngạc nhiên.

4500x: Phần mềm Cisco IOS, Phần mềm IOS-XE, Phần mềm chuyển mạch Catalyst 4500 L3 (cat4500e-UNIVERSALK9-M), Phiên bản 03.04.05.SG PHẦN MỀM ĐÁNG TIN CẬY (fc1) ROM: 15.0 (1r) SG10

4948e: Phần mềm Cisco IOS, Phần mềm chuyển đổi Catalyst 4500 L3 (cat4500e-IPBASEK9-M), Phiên bản 15.0 (2) SG10, PHẦN MỀM LIÊN QUAN (fc1) ROM: 12.2 (44r) SG11

— mfinni
nguồn

Câu trả lời:

Có vẻ như bạn đã tạo ra một cơn bão phát sóng, và cách duy nhất để ngăn chặn nó là tắt nguồn các công tắc. Trải qua nhiều lần, chúng tôi đã áp dụng một số thực tiễn tốt nhất được đề xuất bởi Cisco:

Bạn chỉ nên mở rộng Vlan cho một công tắc truy cập duy nhất. Bạn có thể có nhiều Vlan như bạn muốn trên một công tắc truy cập, nhưng các Vlan trên bất kỳ công tắc truy cập nào không nên được chuyển sang bất kỳ công tắc truy cập nào khác, chỉ cho công tắc phân phối. Thực thi điều này bằng cách vô hiệu hóa thủ công tất cả các Vlan khác trên một thân cây bằng switchport trunk allowed vlan lệnh.
Một công tắc phân phối không nên có bất kỳ giao diện truy cập nào trên đó, chỉ có các giao diện trung kế phân phối.
Không sử dụng VTP (đặt tất cả các công tắc sang transparentchế độ).
Giao diện truy cập của bạn nên có portfastvà bpduguard kích hoạt. Bạn có thể kích hoạt chúng trên toàn cầu cho tất cả các giao diện truy cập của mình và giao diện trung kế của bạn sẽ không bị ảnh hưởng. Nếu bạn vô tình kết nối một công tắc với giao diện truy cập, điều này sẽ khiến giao diện đi vào err-diablevà ngăn chặn các vòng lặp STP.
Không kết nối một công tắc truy cập với một công tắc truy cập khác. Chỉ kết nối các công tắc truy cập với các công tắc phân phối và chỉ trên các giao diện trung kế.

Những thực tiễn tốt nhất này sẽ ngăn chặn hầu hết tất cả các sự cố STP và cách ly mọi sự cố xảy ra với một công tắc truy cập.

— Ron Maupin
nguồn

À đúng rồi. Một ngày nào đó, tôi hy vọng sẽ làm việc trên một mạng có đủ tiền, không có ứng dụng "lạ" (tức là L2), cộng đồng người dùng ngoan ngoãn và hỗ trợ quản lý đầy đủ để tuân theo tất cả các thực tiễn tốt, được đề xuất. Một ngày nào đó.

— Ron Trunk

1. Gợi ý đầu tiên về Vlan và các công tắc truy cập, tôi không chắc là mình hiểu.

— mfinni

2. "phân phối" của chúng tôi có lẽ là 4500x của chúng tôi, phần lớn là các thân cây nhưng có một số kết nối sợi iSCSI.

— mfinni

3. Tránh VTP - sẽ cân nhắc, đừng nghĩ bất cứ điều gì được đặt "minh bạch" ngày hôm nay

— mfinni

4. portfast và bdpuguard - cũng sẽ xem xét đề xuất này

— mfinni

Ngoài lời khuyên tuyệt vời của Ron Maupin ở trên, tôi cũng tìm thấy một số bài đăng trên diễn đàn của Cisco về một sai lầm lớn tiềm ẩn mà tôi đã mắc phải trong quá trình này. Tôi đã thêm các Vlan vào các giao diện cổng vật lý trước tiên, không phải giao diện kênh cổng mà chúng là thành viên. Thứ hai là cách thích hợp để làm điều đó, và tôi có thể đã gây ra vấn đề.

— mfinni
nguồn

Bạn có thể làm theo cách bạn đã làm, nếu các giao diện thành viên không hoạt động. Nói chung, tôi đã thấy rằng tôi muốn các giao diện thành viên ngừng hoạt động, thực hiện tất cả các cấu hình, bao gồm cả kênh cổng, sau đó, một khi đó là tất cả các cách tôi muốn, đưa mọi thứ lên.

— Ron Maupin