Tại sao HyperV VM của tôi bị mất kết nối ngẫu nhiên?


10

Tôi có một vấn đề kết nối không liên tục kỳ lạ xảy ra khoảng hai tuần một lần.

Đầu tiên cấu hình của tôi: Tôi đang chạy một cụm chuyển đổi dự phòng HyperV với hai máy chủ vật lý (nút01 và nút02). Các máy chủ đều chạy máy chủ HyperV Windows Server 2008 R2 (miễn phí) với SP1. Trên các máy chủ đó, tôi đang chạy hai máy ảo, mỗi máy chạy Windows Server 2008 R2 phiên bản Web với SP1. Máy chủ lưu trữ của tôi là Windows Storage Server 2008 được kết nối qua iSCSI. Cả máy chủ cũng như máy chủ lưu trữ đều đang chạy trình điều khiển mạng mới nhất được tải xuống trực tiếp từ trang web của Intel.

Đây là vấn đề: 99,99% thời gian, mọi thứ đều hoạt động hoàn hảo. Cứ khoảng hai - ba tuần một lần, các máy ảo sẽ đồng thời mất kết nối mạng, cả đến và đi. Khi điều này xảy ra,

  1. Tôi không thể RDP thành một trong hai VM.
  2. Tôi có thể RDP vào một trong hai máy chủ.
  3. Tôi có thể kết nối với VM từ Trình quản lý cụm chuyển đổi dự phòng bằng cách nhấp chuột phải vào nút và chọn 'Kết nối với máy ảo'
  4. Khi tôi kết nối với VM như được mô tả trong # 3 ở trên, tôi không thể truy cập bất kỳ trang web hoặc máy nào trong mạng LAN. Vô hiệu hóa và kích hoạt lại kết nối mạng ảo bên trong VM không khắc phục được sự cố.
  5. Nếu tôi di chuyển VM sang một nút khác, điều đó sẽ khắc phục sự cố (trong hai tuần tới).
  6. Nếu tôi khởi động lại máy chủ và chuyển VM trở lại vào nó, nó sẽ khắc phục vấn đề (trong hai tuần tới).
  7. Khi điều này xảy ra, cụm chuyển đổi dự phòng KHÔNG tự động chuyển đổi dự phòng VM.
  8. Không có mục nhật ký sự kiện bất thường trên bất kỳ máy chủ hoặc máy ảo nào.

Điều này đã xảy ra khoảng 5 lần với các triệu chứng giống như mô tả ở trên. Tôi nghi ngờ trình điều khiển mạng hoặc sự cố phần cứng mạng, nhưng vì tôi đã chạy trình điều khiển mới nhất nên tôi không biết phải làm gì về vấn đề này.

Đây là một người gãi đầu thực sự ... bất kỳ ý tưởng?

Cập nhật

Tôi đã tìm thấy một trường hợp rất giống ở đây: Virutal Machine mất kết nối mạng trên Hyper V Cluster

Cập nhật ngày 29/7/2011

Sau khi cài đặt hotfix và cập nhật trình điều khiển mạng, tôi vẫn gặp vấn đề tương tự. Đáp lại bình luận hỏi về chi tiết phần cứng, máy chủ là Intel SR1670HV, khung máy 1U chứa hai bo mạch chủ S5500HV độc lập. Giao tiếp thông qua các NIC tích hợp của bo mạch chủ là Intel 82574L. Trình điều khiển mạng là phiên bản 16.2.49.0.


bạn có thể thêm lời gièm pha về phần cứng của bạn không (số lượng ảnh)
Jim B

Bạn có thương hiệu / kiểu máy chủ nào trong máy chủ?
Chris S

Thông tin về phần cứng và NIC được thêm vào ở trên.
Mike

Những gì chuyển đổi thương hiệu / mô hình bạn đang kết nối thông qua?
ErnieTheGeek

Tôi đã gặp sự cố mô phỏng với hình ảnh CentOS trên máy chủ MS hyperV. Bạn có các NIC chuyên dụng cho từng máy hoặc một NIC chung không? Khi chúng tôi chuyển sang sử dụng các bức ảnh chuyên dụng, vấn đề này đã biến mất ... đó không phải là một sửa chữa thực sự ...
n8whnp

Câu trả lời:


7

Chúng tôi đã từng có một vấn đề như thế này, nơi tôi đang ở. Tôi không nhớ chi tiết chính xác, nhưng giải pháp cuối cùng phải thực hiện với một địa chỉ mac xung đột được gán động cho bộ điều hợp mạng ảo. Ghim những người xuống để họ không năng động đã giúp rất nhiều. Bạn thường không muốn làm điều đó bởi vì nó có thể khiến việc di chuyển một máy ảo sang một máy chủ khác khó khăn hơn, nhưng nó đã giúp chúng tôi trong trường hợp này.

Một phần khác là các nics vật lý được tạo bởi broadcom và chúng tôi cũng gặp lỗi cấu hình ở đó, trong đó một quản trị viên trước đó đã cố gắng sử dụng tiện ích broadcom để kết nối hai nics với nhau trên máy chủ để cải thiện băng thông / thông lượng. Chúng tôi đã xóa thiết lập đó và định cấu hình một trong các ảnh để nó không có IP nào trên máy chủ, nhưng vẫn có thể được sử dụng để truyền cho khách ảo. Sau đó, chúng tôi đặt mỗi máy ảo chỉ sử dụng một nic hoặc khác, cân bằng tải dựa trên lưu lượng truy cập lịch sử. Tất nhiên, điều đó có nghĩa là không có chuyển đổi dự phòng nếu bộ điều hợp hoặc kết nối bị hỏng và chúng tôi đã không theo dõi tốt để xem liệu lưu lượng truy cập có được cân bằng theo thời gian hay không, nhưng kể từ đó, nó đã ổn định ổn định.


5

Tôi biết rằng đây là một câu hỏi cũ, nhưng tôi đã gặp phải vấn đề tương tự và lãng phí quá nhiều thời gian để giải quyết nó đến nỗi tôi nghĩ rằng tôi sẽ chia sẻ giải pháp hiệu quả cho tôi. Tôi tìm thấy giải pháp cho vấn đề của mình ở đây:

http://invendows.wordpress.com/2008/03/06/network-su-with-hyper-v/

Giải pháp trong tình huống của tôi là vô hiệu hóa TCP Offloading trên máy ảo. Tôi sẽ trích dẫn phần có liên quan từ liên kết:

Để tắt TCP Offloading, tôi đã phải tạo và thiết lập một giá trị đăng ký mới trong mỗi VM được kết nối với Broadcom 8507 Nextternal II NIC.

Tôi đã sử dụng thay đổi sổ đăng ký sau để tắt TCP Offloading:

Khóa: HKLM \ HỆ THỐNG \ CurrentControlset \ Services \ Tcpip \ Tham số

Giá trị (DWORD): DisableTask Offerload = 1

Sau khi vô hiệu hóa giảm tải TCP trên mỗi VM theo cách này, mọi rắc rối đã kết thúc và tôi đã có thể kết nối nhiều máy ảo với một cổng NIC của Broadcom 5708 Nextternal II NIC.

Máy chủ của tôi có các Broadcom NetExtremeNIC, vì vậy đối với tôi, nguyên nhân của sự cố này chắc chắn có liên quan đến trình điều khiển, nhưng cài đặt DisableTaskOffload= 1 đã giải quyết vấn đề hoàn toàn cho tôi. Hy vọng rằng thông tin này sẽ tiết kiệm cho người khác hàng giờ tìm kiếm!


1
+1, cảm ơn vì mẹo này, tôi đã chạy được vài ngày mà không gặp vấn đề gì.
m0dest0

1
Không có vấn đề, m0dest0. Vui mừng khi biết rằng nó đã giúp bạn. :)
BruceHill

3

Tôi đã gặp một cái gì đó tương tự trong môi trường Hyper-V đơn giản hơn nhiều, và đã xem qua bài viết này tại Microsoft. Có vẻ phù hợp với tình huống của bạn nếu các máy chủ web được sử dụng nhiều.

http://support.microsoft.com/kb/974909 - Kết nối mạng của máy ảo Hyper-V đang chạy bị mất dưới lưu lượng truy cập mạng lớn trên máy tính chạy Windows Server 2008 R2


Bài viết KB mà bạn tham khảo là trước SP1, nhưng tôi đã thực hiện một bài tương tự sau SP1 có vẻ đầy hứa hẹn: support.microsoft.com/kb/2263829
Mike

1
Tôi đã xóa đây là câu trả lời vì tôi đã cài đặt hotfix nhưng sự cố vẫn xảy ra. Do đó, câu hỏi này vẫn chưa được trả lời ...
Mike

2

Chúng tôi đã có vấn đề tương tự, mặc dù trong trường hợp của chúng tôi là cứ sau 24-48 giờ. Tôi sẽ kiểm tra kỹ xem sản phẩm chống vi-rút / tường lửa của bạn có hỗ trợ Server 2008 với Hyper-V hay không, nếu không, hãy thử một sản phẩm khác (hoặc tạm thời loại bỏ nếu khả thi) để kiểm tra xem sự cố có biến mất không .

Sau một cuộc gọi tới Microsoft và một số tệp kết xuất / tệp tải lên sau đó, họ đã xác định rằng TrendMicro OfficeScan là thủ phạm trong trường hợp của chúng tôi. Chúng tôi đang sử dụng một phiên bản hóa ra không được hỗ trợ rõ ràng trên Hyper-V, một khi chúng tôi nâng cấp lên phiên bản mới nhất, vấn đề đã biến mất.


2

Đây hóa ra là một vấn đề về phần cứng - Tôi đã tách vấn đề sang một công tắc được quản lý Netgear GSM7224v2, thay thế nó bằng D-Link DGS-1024D và mọi thứ đã hoạt động tốt kể từ đó.

Như một "bài học kinh nghiệm", trong trường hợp này, tôi có lẽ đã dành 99% cho các nỗ lực chẩn đoán sự cố cài đặt phần mềm cho những gì hóa ra là vấn đề phần cứng. Tôi thậm chí đã trả cho Bộ phận hỗ trợ của Microsoft $ 259 (và dành nhiều thời gian cho điện thoại với họ) để giúp tôi tìm ra nó bằng cách chọc vào các cài đặt phần mềm. Tôi đoán đạo đức của câu chuyện là nghi ngờ phần cứng của bạn cũng giống như phần mềm của bạn.


1

Trên các thuộc tính bộ điều hợp mạng cho máy khách VM, bạn đã tắt Gói Jumbo và Giảm tải Gửi lớn chưa? Dựa trên kinh nghiệm của tôi với các cài đặt này, tôi chắc chắn sẽ thử nó.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.