Tôi đang tìm kiếm một số lời khuyên sau sự kiện để sự kiện này không xảy ra lần nữa.
Chúng tôi có lõi mạng gồm hai thiết bị chuyển mạch Cisco 4500x, được định cấu hình cho dự phòng VSS. Từ những thứ đó, chúng tôi có các thiết bị iSCSI, HP bladecenter cho vSphere của chúng tôi, cộng với các liên kết tổng hợp đến các công tắc truy cập người dùng của chúng tôi và một cặp 4948e cho các thiết bị bằng đồng trong phòng máy chủ của chúng tôi. Ngoài 4948, chúng tôi có một cặp 2960 thiết bị chuyển mạch cho hai liên kết ISP và một cặp ASA làm tường lửa. Dự phòng khá tốt, ngoại trừ rất nhiều thiết bị kết nối với 4948e chỉ có các NIC duy nhất - chỉ có rất nhiều chúng ta có thể làm.
Chúng tôi đang chuẩn bị thay thế các công tắc truy cập người dùng hiện tại của chúng tôi (Cực cũ) bằng Meraki. Chúng tôi cũng đang triển khai AP Meraki để thay thế Arubas hiện tại của chúng tôi. Một phần của dự án không dây liên quan đến việc tạo ra một số Vlan và mạng con mới, để quản lý AP và không dây cho khách.
Chúng tôi có hai Vlan được xác định (20 và 40) trên 4500x không được sử dụng ở bất kỳ đâu - xác nhận rằng các mạng con trống, không có cổng nào sử dụng chúng, v.v. Tôi đã đi vào 4500x và phát hành " no interface vlan 20
", và sau đó xây dựng lại nó bằng mạng con Tôi muốn Sau đó tôi đã thêm nó vào hai cổng 10Gb được kết nối với Meraki
switchport trunk allowed <previous list plus two VLANs above plus existing wireless VLAN>
Tôi nhận thấy rằng 20 và 40 Vlan đã ngừng hoạt động, vì vậy tôi đã ban hành no shutdown
chúng. Tôi đã mất quyền truy cập vào Merakis tại thời điểm đó, vì vậy tôi nhận ra rằng tôi đã không thêm Vlan vào giao diện kênh cổng cho liên kết đó.
Một nửa môi trường của chúng tôi đã trở nên không thể truy cập vào thời điểm này
Liên kết Internet của chúng tôi đã rất flakey. Điện thoại VoIP Avaya của chúng tôi không thể quay số vào hoặc ra. Chúng tôi có một vài thiết bị iSCSI được kết nối bằng đồng trở nên không khả dụng - không mất điện cho bất kỳ thứ gì mà người dùng phải đối mặt, nhưng các bản sao lưu và lưu trữ thư của chúng tôi đã bị ảnh hưởng. Tôi đã đi vào phòng máy chủ và ngắt kết nối Merakis khỏi 4500x (rút cả hai cổng sợi 10Gb) trong trường hợp tôi đã tạo ra một vòng lặp - không thay đổi. Tôi thừa nhận chỉ đơn giản là nhìn chằm chằm vào điều này một lúc tại thời điểm đó.
Tôi kéo Orion lên và lưu ý rằng một trong những công tắc bên ngoài của chúng tôi (Cat2960) và một trong những cặp ASA của chúng tôi cũng bị hỏng. Rõ ràng là chúng tôi đã bị mất kết nối mạng LAN một phần, nhưng cặp ASA cũng được kết nối với nhau và các đường lên của chúng không bị hỏng, vì vậy chúng không chuyển sang những gì thiết bị nội bộ của chúng tôi có thể đạt được. Tôi tắt ASA "xuống" và internet có thể truy cập trở lại.
Tôi đã gọi cho TAC, và sau vài giờ vật lộn với công nghệ, người đã liên tục đánh lừa mọi cấu hình cổng cho mỗi máy chủ bị giảm, tôi đã cho anh ta xem trên 4500x, tôi đã đăng nhập vào một trong 4948e của chúng tôi và cho thấy cách nó không thể ping mọi thứ được kết nối trực tiếp và lên - một trong những thiết bị iSCSI đồng dựa trên Windows của chúng tôi, giao diện iLO trên bladecenter của chúng tôi, v.v.
Anh ta đã xem qua các bản ghi và không tìm thấy gì, nhưng tại thời điểm này anh ta nói "Trông giống như một con bọ cây bao trùm ngay cả khi tôi không thấy điều đó trong nhật ký", vì vậy chúng tôi đã khởi động lại 4948e và tất cả trực tiếp Các máy chủ được kết nối đã quay lại ngay - bao gồm cả tủ Avaya, vì vậy điện thoại của chúng tôi bắt đầu hoạt động trở lại. Chúng tôi vẫn gặp sự cố trong các thiết bị kết nối sợi 4500x - đường dẫn chết, vì tất cả đều dư thừa. Anh ta muốn quay vòng nó một cách vô duyên, nhưng điều này có tất cả 10 Gbit iSCSI của chúng tôi và điều đó sẽ khiến môi trường vSphere của chúng tôi (về cơ bản là tất cả các máy chủ của chúng tôi) có một tuần tồi tệ. Tôi đã nói chuyện với anh ấy về việc thực hiện chuyển đổi dự phòng duyên dáng, trong đó giải quyết các vấn đề còn lại.
TL; DR: Tôi đã thực hiện một thay đổi khá vô hại đối với cốt lõi của chúng tôi và gây ra một vấn đề gớm ghiếc. Có phải tôi đã mắc một lỗi cấu hình đáng lẽ phải được dự đoán là gây ra điều này - ví dụ: nếu tôi không tắt Vlan trước và thêm chúng vào portchannel và sau đó là các cổng, điều này có tránh được không? Công nghệ của Cisco đã không nói rằng; ông nói, với thời gian tăng hơn một năm và các phiên bản iOS cũ, những tình huống như thế này không gây ngạc nhiên.
4500x: Phần mềm Cisco IOS, Phần mềm IOS-XE, Phần mềm chuyển mạch Catalyst 4500 L3 (cat4500e-UNIVERSALK9-M), Phiên bản 03.04.05.SG PHẦN MỀM ĐÁNG TIN CẬY (fc1) ROM: 15.0 (1r) SG10
4948e: Phần mềm Cisco IOS, Phần mềm chuyển đổi Catalyst 4500 L3 (cat4500e-IPBASEK9-M), Phiên bản 15.0 (2) SG10, PHẦN MỀM LIÊN QUAN (fc1) ROM: 12.2 (44r) SG11