Lỗi đĩa cứng trong ESX Guest, trên ổ đĩa được hỗ trợ vmfs, làm sao điều này có thể xảy ra?

8

Làm thế nào một khách trong ESX có thể tìm thấy các vấn đề io như thế này?

[ 40.601502] end_request: critical target error, dev sdg, sector 430203456
[ 40.601563] sd 2:0:6:0: [sdg] Unhandled sense code
[ 40.601582] sd 2:0:6:0: [sdg] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
[ 40.601622] sd 2:0:6:0: [sdg] Sense Key : Hardware Error Sense Key : Hardware Error [current] [current] 
[ 40.601661] sd 2:0:6:0: [sdg] Add. Sense: Internal target failureAdd. Sense: Internal target failure
[ 40.601695] sd 2:0:6:0: [sdg] CDB: Write(10)Write(10):: 2a 2a 00 00 02 19 64 a4 05 62 c0 80 00 00 00 00 40 40 00 00

về mặt vật lý, dữ liệu trên vmfs được lưu trữ trong một mảng raid6 (thích nghi 5805), có vẻ như rất vui
Ngoài ra, máy chủ ESX không ghi lại bất kỳ vấn đề nào
kích thước đĩa được báo cáo bởi khách có vẻ giống như kích thước đĩa được cung cấp
thông qua esx, khách có 9 'ổ' được đính kèm và chỉ có 2 biểu hiện vấn đề này

linux vmware-esxi

— Tobi Oetiker
nguồn

1

Có lẽ một lỗi trong lớp mô phỏng I / O? Bạn đã thử thay đổi loại bộ điều khiển SCSI của khách để xem liệu nó có thay đổi hành vi không? Có truy cập vào khu vực được chỉ định tái tạo lỗi? Sử dụng dd if=/dev/sdg bs=512 skip=430203455 count=1để đọc lại hoặc chỉ badblocks -w -b 512 /dev/sdg 430203457 430203455để thực hiện một chu trình đọc-kiểm tra viết lại nếu bạn cảm thấy dũng cảm.

— the-wợi

Phiên bản kernel nào bạn có ở đó? Nâng cấp kernel của bạn và xem nếu lỗi vẫn xuất hiện.

— Sacx

1

Tôi đã trải nghiệm điều tương tự về khối lượng sao lưu cho MS SQL trong Win 2008 khách trong ESX 4.0 - đó là một khối lượng thô được hiển thị từ trình quay NetApp.

Hệ điều hành khách đang báo cáo (và vẫn báo cáo) các thành phần xấu trên khối lượng đó.
Tôi nghĩ điều này xảy ra do có quá nhiều thao tác ghi I / O, hết thời gian tạm thời hoặc quá tải filer.
Không có khu vực xấu báo cáo. NetApp "chà đĩa" cho biết tất cả đều ổn. Không có lỗi filer báo cáo.

Nhưng dù sao chúng ta sẽ tạo lại tập này và xem nó có sửa được không.

Làm thế nào về khối lượng khác của bạn trên filer này? Bạn có thể vui lòng kiểm tra âm lượng này bằng lệnh "badblocks / dev / sdg" không? (thận trọng: chi phí rất lớn)

— Quá
nguồn

1

Đó là một vấn đề phần cứng / phần sụn. Mặc dù Adaptec 5805 (với phần sụn mới nhất) đã báo cáo tất cả các ổ RAID6 ở trạng thái tối ưu, nó cũng báo cáo một ổ chứa 'Dải không thành công'. Hiệu quả của việc này dường như là, một phần của ổ RAID6 trở nên không thể đọc được (gây ra các lỗi được trích dẫn trong câu hỏi). ESX dường như không nhìn thấy điều này trực tiếp, nhưng chạy dd if=/dev/zero of=file-on-damaged-volumetrực tiếp trên bảng điều khiển ESXi đã kết thúc bằng lỗi i / o trong khi vẫn còn nhiều khoảng trống trên ổ đĩa.

Không có số lượng arcconf verify / verify_fix chạy trên các ổ đĩa và thiết bị vật lý có thể phát hiện hoặc sửa chữa bất cứ điều gì ... Cuối cùng, tôi đã di chuyển tất cả dữ liệu ra khỏi ổ đĩa và tạo lại nó ở cấp độ thích nghi. Bây giờ tất cả đều ổn, nhưng niềm tin của tôi vào khả năng bảo vệ dữ liệu của tôi đã bị tổn hại nghiêm trọng.

— Tobi Oetiker
nguồn

1

Điều này khá phù hợp với quy trình Sun / Oracle cho các tình huống như vậy . Ngoài ra còn có bài viết FAQ của Adaptec về các sọc xấu cung cấp một số thông tin cơ bản về cách các sọc xấu xảy ra và những gì có thể được thực hiện để ngăn chặn chúng.

— the-wợi

Vâng, bài báo của Sun / Oracle đã đưa tôi đi đúng hướng (buồn). Chúng tôi đã có một đĩa bị lỗi trong mảng này, nhưng nó raid6, vì vậy ngay cả khi đó có sự dư thừa, không phải các kiểm tra phương tiện sau này đã phát hiện ra bất kỳ lỗi nào với các đĩa còn lại ... cũng là bộ điều khiển thích nghi có BBU nên tôi không thực sự thấy bất kỳ lý do nào cho hành vi này :-( Chưa bao giờ có bất kỳ vấn đề nào như vậy với bộ điều khiển areca của chúng tôi.

— Tobi Oetiker

Tôi hầu như không bao giờ sử dụng bộ điều khiển Adaptec và chủ yếu duy trì lưu trữ LSI, nhưng đây là lần đầu tiên tôi vấp phải "sọc xấu". Tôi tự hỏi nếu đây là một cái gì đó rất cụ thể để thực hiện Adaptec.

— the-wợi