Làm cách nào để kiểm tra CentOS 6 Server VM Host sau khi bị mất điện?

9

Chiều nay, một người nào đó tại văn phòng của chúng tôi đã quyết định rút phích cắm ra khỏi máy chủ của chúng tôi vì nó đang gây bão bên ngoài. Họ không tắt nó, họ chỉ rút phích cắm ra khi nó đang chạy.

Máy chủ có 4 ổ đĩa SATA trong cấu hình RAID 10 phần mềm và LVM chạy trên đỉnh RAID. Máy chủ đang chạy CentOS 6.2 Minimal và là máy chủ ảo sử dụng KVM. Vào thời điểm nó được rút ra, có rất nhiều máy khách đang chạy trên máy tính. Mỗi khách có một hoặc nhiều phân vùng LVM mà nó sử dụng trực tiếp làm ổ cứng. Các phân vùng khách là EXT3, EXT4 và NTFS. Hệ điều hành máy chủ nằm trên phân vùng EXT4.

Sau đó, khi điện trở lại, người đó cắm lại và nó khởi động. Vì họ cắm nó vào mà không gắn màn hình trước, nên không có cách nào để xem những gì xuất hiện trên màn hình. Tôi đã thử gắn màn hình ngay bây giờ, nhưng nó sẽ không hoạt động trừ khi màn hình được kết nối khi khởi động. Tôi đã để nó lại, chính xác như vậy, cho đến khi tôi có thể nhận được một số lời khuyên vì tôi không muốn làm hỏng bất cứ điều gì (hơn nữa).

Tôi có thể vào máy chủ thông qua SSH. Tôi chưa khởi động lại nó trong trường hợp có một cái gì đó trong một bản ghi ở đâu đó có thể hữu ích.

Những gì tôi cần làm là kiểm tra tất cả các đĩa và phân vùng xem có toàn vẹn dữ liệu hay không, nếu điều đó thậm chí có thể. Tôi nghĩ RAID 10 sử dụng một số loại bộ nhớ cache dựa trên bộ nhớ và tôi lo lắng về việc các ổ đĩa không nhất quán hoặc các tệp bị hỏng nếu có những điều trong gợi ý để ghi vào ổ đĩa chưa được ghi.

[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1] 
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
      102388 blocks super 1.0 [4/4] [UUUU]

md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
      1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
      bitmap: 0/15 pages [0KB], 65536KB chunk

md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
      1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]

unused devices: <none>

Nó cũng làm phiền tôi rằng nó gọi mảng của tôi là "gần bản sao". Điều đó có bình thường không?

Tôi nên chạy loại kiểm tra đĩa nào để đảm bảo mọi thứ đều ổn với các ổ đĩa và dữ liệu? Có những thứ khác tôi nên kiểm tra?

CẬP NHẬT

Đầu ra của mdadm --detail

[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
        Version : 1.1
  Creation Time : Sat Feb 25 09:26:20 2012
     Raid Level : raid10
     Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
  Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
   Raid Devices : 4
  Total Devices : 4
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Sun Mar 11 12:59:30 2012
          State : active 
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0

         Layout : near=2
     Chunk Size : 512K

           Name : othello.myserver.com:0  (local to host othello.myserver.com)
           UUID : 58ba40ab:12516733:e3779362:68200fdd
         Events : 2208

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       1       8       19        1      active sync   /dev/sdb3
       2       8       35        2      active sync   /dev/sdc3
       3       8       51        3      active sync   /dev/sdd3

— Nick
nguồn

3

RAID vẫn ổn, tất cả các UUUU đều có nghĩa là tất cả các đĩa trong mảng đều hoạt động. Tôi thậm chí không lo lắng về điều đó bây giờ.

Đối với VM, nếu bạn muốn chạy fscks trên chúng, hãy dừng VM và chạy

fsck.ext3 (ext4, etc) /path/to/lvm (thường là / dev / vg-name / lv-name)

Nếu bạn đang sử dụng KVM, bạn sẽ có thể sử dụng virshđể làm bất cứ điều gì bạn cần cho VM. Đây là đường dẫn đến trang man virsh http://linux.die.net/man/1/virsh

Nếu bạn thực sự muốn chạy kiểm tra đĩa trên mảng đột kích của mình, bạn sẽ phải khởi động lại vào chế độ người dùng hoặc khởi động từ đĩa cd trực tiếp để bạn có thể fsck các thiết bị / dev / mdX riêng lẻ. Vì hệ thống tập tin chính là EXT4, tôi không bận tâm, nó tốt hơn nhiều so với EXT3 khi mất điện.

— jemmille
nguồn

+1, sẽ thử vào ngày mai.

— Nick

1

Hãy thử mdadm --detail / dev / md0 (tương tự cho md1 và md2).

Sau đó thử lời khuyên đưa ra ở đây: http://linas.org/linux/ston.html

— öde
nguồn

Tôi đã đăng kết quả đầu ra mdadm --detail /dev/md0ở trên. Tôi đã đọc qua hướng dẫn mà bạn đã liên kết, nhưng nó không đề cập đến các hệ thống tệp EXT4, hoặc cụ thể tôi có thể làm gì để kiểm tra tính toàn vẹn?

— Nick

Kiểu hệ thống tập tin không quan trọng về tính toàn vẹn của RAID. Nếu bạn có thời gian bảo trì, bạn có thể ngắt kết nối các hệ thống tệp bị ảnh hưởng và fsckchúng. Nếu bạn muốn tự kiểm tra các thiết bị RAID, bạn có thể làm một cái gì đó như thế echo "check" > /sys/block/md0/md/sync_action. Hoặc lặp lại "sửa chữa" cho nó để thực hiện một số loại sửa chữa mdadm.

— cjc

Tôi sẽ thử điều này vào ngày mai và báo cáo lại.

— Nick