Các nhóm luôn sẵn sàng chuyển sang trạng thái Giải quyết


7

Chúng tôi có một cụm hai nút được thiết lập đang chạy SQL Server 2012 trên Windows Server 2012 R2. Các cụm cơ sở chỉ bao gồm hai nút. Nhóm đại biểu được thiết lập dưới dạng đa số nút + đĩa, với một đĩa được chia sẻ nằm trên một mảng EqualLogic kết nối qua iSCSI. Cấu hình cụm xác nhận không có lỗi.

Đầu ngày hôm nay, hai Nhóm sẵn có đang chạy trên cụm (cả chính trên Nút số 1) đã chuyển sang trạng thái phân giải trên cả hai nút. Nhìn vào các sự kiện cụm, không có gì cho đến khi nó cố gắng khởi động lại dịch vụ. Mọi thứ bên dưới cụm Windows Failover hiển thị màu xanh lá cây (trực tuyến và không có cảnh báo) - đĩa, giao diện mạng, nút, v.v.

Nhìn vào nhật ký ứng dụng trong Windows Event Viewer, sự kiện cho thấy các Nhóm khả dụng đang vào trạng thái Giải quyết đã được yêu cầu làm như vậy bởi cụm vì không thể thiết lập một đại biểu. Tôi không thể tìm thấy bất cứ điều gì khác trong bất kỳ nhật ký nào để hỗ trợ điều này và đại biểu thông qua trong quá trình xác nhận cụm.

Các AG không phục hồi. Chúng tôi đã tìm thấy trong nhật ký Luôn luôn trong nhật ký Máy chủ SQL rằng nút đầu tiên có lỗi điểm cuối phản chiếu. Điều này xảy ra ngay sau khi vi phạm quyền truy cập bộ nhớ với các triệu chứng tương tự như sự cố Microsoft đã giải quyết với Bản cập nhật tích lũy 6, vì vậy chúng tôi sẽ thử tiếp theo.

Tôi đã có thể khởi động lại dịch vụ SQL Server trên nút 1 (dịch vụ vi phạm quyền truy cập bộ nhớ mà ghi chú thứ hai không thể giao tiếp) và tôi đã có thể đưa nhóm khả dụng trở lại trực tuyến tại thời điểm đó. Khởi động lại cũng đưa mọi thứ trở lại 100%.

Bạn có hiểu biết sâu sắc về lý do tại sao điều đó sẽ không làm hỏng nút 1 và giữ cho cơ sở dữ liệu tồn tại trên nút 2 khi điểm cuối phản chiếu không thành công? Chúng tôi hiện đang ở cấp độ 3 AG; sẽ mang đến tối đa 4 điều đó gây ra lỗi trên nút 1 trong khi để dịch vụ còn sống trên nút 2?


1
Nếu các bản sao không thể nói chuyện với nhau qua điểm cuối phản ánh cơ sở dữ liệu thì đó sẽ là một nguyên nhân cho vấn đề này. Kiểm tra kết nối giữa các điểm cuối phản chiếu DB của hai máy chủ (quyền, v.v.). Đó là vấn đề của bạn, rất có thể.
Thomas Stringer

Câu trả lời:


1

Tôi đã thấy điều này xảy ra rất nhiều khi mọi người chỉ có một bộ cáp mạng kết nối với máy chủ của họ - nghĩa là, một cặp cáp Ethernet 1Gb ở mỗi nút, tốt nhất là họ đang sử dụng chúng cho cả mạng thông thường cũng như iSCSI kết nối lưu trữ. (Thực tế là bạn đang sử dụng Equallogic là một đầu mối - Tôi đã thấy rất nhiều trong số những người có triển khai 1Gb.)

Nếu bạn có bất kỳ vấn đề mạng nào cả:

  • Hai nút sẽ không thể nhìn thấy nhau
  • Cả hai nút sẽ không thể xem lưu trữ
  • Presto, không ai nhìn thấy đa số, và bạn mất đại biểu

Những thứ có thể gây ra điều này bao gồm:

  • Phần mềm sao lưu (thực hiện đọc lớn từ đĩa trong khi đồng thời bão hòa mạng)
  • Chạy CHECKDB (một lần nữa, số lần đọc lớn từ đĩa cộng với ghi rất lớn vào TempDB, điều này có thể ngăn nhịp tim của cụm sao vượt qua nếu bạn chỉ có một giao diện mạng cho cả mạng và lưu trữ thông thường)

Để làm việc xung quanh nó:

  • Sử dụng các giao diện mạng riêng biệt cho mạng thông thường và iSCSI (như một cặp cổng 1Gb (ít nhất) chỉ dành riêng cho iSCSI và không có gì khác)
  • Sử dụng giao diện mạng nhanh hơn (như 10Gb thay vì 1Gb)
  • Làm ít công việc đĩa / mạng hơn (ngừng thực hiện sao lưu và CHECKDB, ha ha ho ho, nhưng cũng dễ dàng xây dựng lại chỉ mục)

0

Tôi đã có một Nhóm sẵn có với các triệu chứng tương tự. Vì lý do bảo trì, 1 nút bị hỏng. Đại biểu vẫn còn từ nút thứ 2 và chia sẻ tệp.

Sau 7 giờ, nút còn sống (có thể) đã mất kết nối với chia sẻ tệp và vì người đứng cuối cùng đã ngừng phục vụ khách hàng - đã mất kết nối với phần chính của đại biểu.

Khi chia sẻ tệp trở nên khả dụng, nó chưa được khôi phục từ trạng thái Giải quyết, chỉ hỗ trợ khởi động lại dịch vụ SQL Server. Có lẽ là do không chắc chắn nếu dữ liệu không được sửa đổi trong thời gian chơi bài.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.