VẤN ĐỀ: Các máy chủ trong hai cụm liên tục mất kết nối nhịp tim với nhau do đó gây ra sự cố ngừng cơ sở dữ liệu. Mất điện ngắn ngủi nhưng gây rối.
THIẾT LẬP:
- Có hai cụm ba máy chủ mỗi.
- Mỗi máy chủ có một NIC được kết nối với một công tắc Lớp 2 (Catalyst 2950) với các cổng chuyển đổi được mã hóa cứng ở mức 100Mb / song công hoàn toàn.
- Các DBA xác nhận rằng mỗi NIC nhịp tim được mã hóa cứng thành 100Mb / song công hoàn toàn.
- Có hai cụm được cấu hình trong Vlan 100 và trong cùng một mạng con (10.40.60.0/24).
- Địa chỉ IP quản lý nằm trên một mạng con riêng biệt (10.40.1.0/24) và cổng chuyển đổi của nó nằm trong Vlan 1.
TRIỆU CHỨNG:
- Tôi thấy số lỗi ngày càng tăng trên các cổng chuyển đổi. Đối với ba máy chủ trong một cụm, các lỗi đầu vào (tất cả CRC) là khoảng 3% tổng số gói đầu vào. Không có lỗi đầu ra. Các cụm khác là khoảng 6% tổng số gói đầu vào.
- Truyền và nhận tải trên các cổng chuyển đổi là nhẹ, dưới 20/255 trên txload và rxload.
- Nhật ký chuyển đổi hiển thị các cổng chuyển đổi nảy:
16 tháng 5 11:15:31 PDT:% LINEPROTO-5-UPDOWN: Giao thức đường truyền trên Giao diện FastEthernet0 / 13, đã thay đổi trạng thái xuống
16 tháng 5 11:15:32 PDT:% LINK-3-UPDOWN: Giao diện FastEthernet0 / 13, đã thay đổi trạng thái xuống
ngày 16 tháng 5 11:15:34 PDT:% LINK-3-UPDOWN: Giao diện FastEthernet0 / 13, đã thay đổi trạng thái thành
ngày 16 tháng 5 11:15:35 PDT:% LINEPROTO-5-UPDOWN: Giao thức đường truyền trên Giao diện FastEthernet0 / 13, thay đổi trạng thái lên
- Tôi đã thay thế cáp Cat5 cũ giữa máy chủ nhịp tim NIC và công tắc bằng Cat6 mới - không có hiệu lực.
- Tôi đã tạo một Vlan 200 mới trong một mạng con mới (10.40.61.0/24) và có các DBA tái IP IP các nhịp tim của họ trên một cụm - không có hiệu lực.
- Chúng tôi đã thử mọi sự kết hợp giữa tốc độ và song công trên cổng chuyển đổi và NIC - không có hiệu lực, đã quay trở lại 100Mb / full-duplex trên cả hai.
- Các DBA đã nâng cấp trình điều khiển Broadcom trên cả hai cụm lên mức mới nhất - giảm tỷ lệ lỗi trên cụm 6% xuống còn 4%, cụm còn lại vẫn ở mức 3%.
CÁC BƯỚC TIẾP THEO CỦA TÔI:
- Có các máy ảo Intel trên các máy chủ. Hãy thử di chuyển nhịp tim của cụm sang một Intel Intel. Có lẽ đó là một vấn đề Broadcom?
- Thay đổi công tắc thành một công tắc có khả năng biểu diễn. Có một Catalayst 3560x có sẵn, nhưng lấy nó sẽ trì hoãn một dự án. Có lẽ gig trên cổng chuyển đổi và NIC sẽ chơi đẹp hơn?
Ý nghĩ gì?
Có cái gì tôi có thể cấu hình trên công tắc 2950 hiện có để giảm thiểu lỗi không? Tôi nên thực hiện các bước khắc phục sự cố bổ sung nào?