Thật không may, có vẻ như chúng ta có thể không đi đến tận cùng của ứng dụng, nhưng để có được một số giá trị từ sự cố này, tôi muốn tạo ra một câu trả lời tham khảo. Đây là VMware và trung tâm quản lý lớp ảo. Rất nhiều quản trị viên được tách riêng và không thể nhanh chóng có được quyền truy cập của khách hoặc lưu trữ và điều này là dành cho họ :)
http://support.seagate.com/kbimg/flash/l mỏi / L mỏi.swf dường như là trận đấu gần nhất với một ứng dụng thực tế, mà @MosheKatz tìm thấy.
Nếu điều này xảy ra trong tương lai, cuộc điều tra nên được thực hiện như sau:
- Bạn nhận thấy một số nhưng không phải tất cả các máy ảo đã bị sập. Bạn nghi ngờ đây là do vấn đề lưu trữ (vì nó thường là nguyên nhân rất có thể)
- Đầu tiên cố gắng cô lập một yếu tố phổ biến. Có phải tất cả các VM bị lỗi chia sẻ cùng một kho dữ liệu? Trong trường hợp này, nhưng một số Máy vẫn ổn, vì vậy chúng tôi loại trừ các sự cố phần cứng rõ ràng.
- Kiểm tra tất cả các máy ảo bị hỏng để xem có yếu tố chung nào không (thời gian, chức năng, v.v.). Trong trường hợp này là không có.
Kiểm tra các sự kiện bất thường khác. Một cái gì đó giơ cờ ở đây:
- Bộ lưu trữ NFS được hỗ trợ mỏng (ở cấp độ mảng). Điều này có nghĩa là mặc dù ví dụ. 200GB được trình bày cho các máy chủ ESXi, trên thực tế chỉ có 100GB. Chỉ có mảng có kiến thức này tuy nhiên. Những gì chúng tôi tìm thấy là một số máy ảo đã bị tạm dừng vì chúng đã hết dung lượng đĩa. Chúng tôi mặc dù điều này có thể là nguyên nhân gốc rễ, vì vậy hành động nắm tay của chúng tôi là phân bổ thêm dung lượng ở mặt sau, để loại bỏ điều này như một vấn đề.
Khi điều này đã được giải quyết (thay đổi giao diện người dùng đơn giản) và các máy ảo bị tạm dừng đang khởi động lại thành công, chúng tôi đã trở lại vấn đề ban đầu. Chúng tôi đã gắn các đĩa ảo từ các máy ảo bị hỏng vào một máy ảo đang hoạt động và thấy rằng không có bảng phân vùng trên các đĩa. Chúng tôi không có sẵn trình xem hex, vì vậy phải giả sử các đĩa hiện trống.
Hệ thống giám sát đã cảnh báo cho một VM mới không hoạt động. Điều này thật tuyệt vời, vì một tải VM đã có vài phút trước khi không phản hồi do vấn đề không gian đĩa, do đó, thực tế VM mới này được tìm thấy nhanh chóng là một dấu hiệu của quản trị giám sát tốt.
Chúng tôi mở một bàn điều khiển và kiểm tra khách, và thấy màn hình trên.
- Ở giai đoạn này, tôi đã đến phòng trò chuyện lỗi máy chủ để xem chương trình có thể được xác định hay không, trong khi đồng nghiệp lưu trữ của tôi đã kiểm tra tất cả các bản ghi và sự kiện lớp ảo, để đảm bảo không có hoạt động lưu trữ nào chạy từ khu vực của chúng tôi.
- Những gì chúng ta nên làm là tạm dừng VM, cho phép tệp tạm dừng được viết ra và phân tích kết xuất để xem liệu chương trình đang chạy có thể được xác định hay không. Đình chỉ VM vào lõi PDF VMware KB
Vào cuối ngày, chúng tôi biết và các công cụ cơ sở hạ tầng ảo sẽ không báo cáo trong một khách như những gì ở trên đang làm. Chúng ta có thể thấy không có ISO được gắn kết và không có sự kiện nào được ghi lại trên VM. Chúng ta có thể thấy VM không phải là "sức mạnh cứng đã đạp", chỉ là khởi động lại mềm (điều này là vô hình đối với cơ sở hạ tầng bên dưới). Chúng tôi biết đó không phải là phía lưu trữ vì chúng tôi đã loại trừ điều đó. Chúng tôi nghi ngờ nó không tự động vì nó đã xảy ra trong vài giờ trên các máy ảo cụ thể. Chúng tôi đoán nó không độc hại vì tại sao bàn điều khiển sẽ báo cáo Disk Wipe nếu đó là :)
Vì vậy, kết luận là một người dùng bắt đầu xóa đĩa. Đó là theo như điều tra của tôi, nhưng tôi hy vọng bạn thấy nó hữu ích.
Bài học kinh nghiệm:
- Sao lưu và kiểm tra khôi phục của bạn
- Đảm bảo tất cả người dùng, người dùng quản trị cụ thể, biết rằng họ đang làm việc trong một môi trường được cung cấp mỏng và nên tránh mọi thứ như định dạng đĩa ghi ra (ví dụ: ghi tải 1 giây
- Có một hệ thống giám sát tốt tại chỗ.
- Và một cái mới cho tôi: Trong bất kỳ môi trường ảo lớn nào, hãy chuẩn bị sẵn một công cụ VM, thậm chí tắt nguồn, với các công cụ chẩn đoán được cài đặt; hiệu suất, lưu trữ mạng. Nếu điều này là có sẵn, chúng tôi có thể đã gắn và thực hiện một kết xuất hex trên đĩa bị hỏng để xem nó có thực sự trống không, hoặc chỉ thiếu một mbr. Chúng tôi cũng có thể thấy nếu nó được viết bằng 1.