Tôi có một máy chủ chạy VMware ESXi v4.1.0 348481. Nó có RAID10 phần cứng và ổ đĩa sao lưu SATA. Tôi có một máy ảo đang chạy, nó có vmdk khởi động chính trên kho dữ liệu RAID10 và vmdk 600 GB trên kho dữ liệu của ổ đĩa sao lưu SATA. VM chạy Debian linux với kernel FreeBSD và sử dụng ZFS cho ổ đĩa sao lưu.
EDIT: Ổ đĩa không được gắn trực tiếp vào VM. Nó được sử dụng như một Kho dữ liệu VMware và VM có vmdk trên kho dữ liệu của ổ đĩa SATA. Kho dữ liệu không đầy đủ (chỉ đầy đủ 65%)
Tôi đã đăng nhập vào máy chủ bằng SSH và thấy rằng bản sao lưu tối qua đã bị treo và zfs list
hoặc zpool list
cả hai đều bị treo. Vì vậy, tôi đã mở giao diện điều khiển ảo trong ESXi và rất buồn khi thấy:
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
Tôi đã cố gắng khởi động lại VM và tôi nhận được một thông báo rằng hệ thống sẽ ngừng hoạt động để khởi động lại, và sau đó bị treo. (^ C xuất hiện nhưng không giết shutdown
). Tôi không thể ngắt hoặc kill -9
các zpool list
zfs list
hoặc rsync
các quá trình - Không có gì xảy ra khi tôi cố gắng.
- Điều này cho thấy ổ đĩa SATA dự phòng bị lỗi? Hoặc đây có thể chỉ là một lỗi ESXi?
- Làm thế nào trong ứng dụng khách vSphere tôi có thể biết nếu ổ đĩa bị lỗi? Tôi không thấy bất kỳ dấu hiệu nào, mọi thứ trong Trạng thái Sức khỏe Phần cứng đều tốt và tôi không thấy gì trong Cấu hình lưu trữ.
- Làm thế nào tôi nên tiến hành từ đây? Tôi có nên khởi động lại VM không?
CẬP NHẬT: Tôi chỉ khó khởi động lại VM. Sau khi nó trở lại trực tuyến, tuy nhiên, zpool dự phòng đã trực tuyến:
root@timestandstill:/home/jnet# zpool status -v
pool: backup
state: ONLINE
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
see: http://www.sun.com/msg/ZFS-8000-8A
scrub: none requested
config:
NAME STATE READ WRITE CKSUM
backup ONLINE 0 0 0
da1 ONLINE 0 0 0
errors: Permanent errors have been detected in the following files:
/backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics
Tôi đang nghiêng rất nhiều về việc thay thế ổ đĩa ...