RAID mdadm đơn giản 1 không kích hoạt phụ tùng


24

Tôi đã tạo hai phân vùng ổ cứng 2TB ( /dev/sdb1/dev/sdc1) trong một mảng RAID 1 được gọi /dev/md0bằng cách sử dụng mdadmtrên Ubuntu 12.04 LTS Precise Pangolin.

Lệnh sudo mdadm --detail /dev/md0được sử dụng để chỉ ra cả hai ổ đĩa là đồng bộ hóa hoạt động .

Sau đó, để thử nghiệm, tôi đã thất bại /dev/sdb1, loại bỏ nó, sau đó thêm nó một lần nữa bằng lệnhsudo mdadm /dev/md0 --add /dev/sdb1

watch cat /proc/mdstat cho thấy một thanh tiến trình của việc xây dựng lại mảng, nhưng tôi sẽ không dành hàng giờ để xem nó, vì vậy tôi cho rằng phần mềm biết nó đang làm gì.

Sau khi thanh tiến trình không còn hiển thị, cat /proc/mdstathiển thị:

md0 : active raid1 sdb1[2](S) sdc1[1]
      1953511288 blocks super 1.2 [2/1] [U_]

sudo mdadm --detail /dev/md0cho thấy:

/dev/md0:
        Version : 1.2
  Creation Time : Sun May 27 11:26:05 2012
     Raid Level : raid1
     Array Size : 1953511288 (1863.01 GiB 2000.40 GB)
  Used Dev Size : 1953511288 (1863.01 GiB 2000.40 GB)
   Raid Devices : 2
  Total Devices : 2
    Persistence : Superblock is persistent

    Update Time : Mon May 28 11:16:49 2012
          State : clean, degraded 
 Active Devices : 1
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 1

           Name : Deltique:0  (local to host Deltique)
           UUID : 49733c26:dd5f67b5:13741fb7:c568bd04
         Events : 32365

    Number   Major   Minor   RaidDevice State
       1       8       33        0      active sync   /dev/sdc1
       1       0        0        1      removed

       2       8       17        -      spare   /dev/sdb1

Tôi đã được thông báo rằng mdadm tự động thay thế các ổ đĩa bị loại bỏ bằng các phụ tùng, nhưng /dev/sdb1không được chuyển đến vị trí dự kiến, RaidDevice 1.


CẬP NHẬT (30 tháng 5 năm 2012): Một badblocksbài kiểm tra đọc ghi phá hủy toàn bộ /dev/sdbmang lại không có lỗi như mong đợi; cả hai ổ cứng đều mới.

Khi chỉnh sửa mới nhất, tôi đã tập hợp mảng bằng lệnh này:

sudo mdadm --assemble --force --no-degraded /dev/md0 /dev/sdb1 /dev/sdc1

Đầu ra là:

mdadm: /dev/md0 has been started with 1 drive (out of 2) and 1 rebuilding.

Xây dựng lại có vẻ như nó đang tiến triển bình thường:

md0 : active raid1 sdc1[1] sdb1[2]
      1953511288 blocks super 1.2 [2/1] [U_]
      [>....................]  recovery =  0.6% (13261504/1953511288) finish=2299.7min speed=14060K/sec

unused devices: <none>

Bây giờ tôi đang chờ đợi việc xây dựng lại này, nhưng tôi hy vọng /dev/sdb1sẽ trở thành một phụ tùng giống như năm hoặc sáu lần mà tôi đã thử xây dựng lại trước đây.


CẬP NHẬT (31 tháng 5 năm 2012): Vâng, nó vẫn là một phụ tùng. Ừ


CẬP NHẬT (01 tháng 6 năm 2012): Tôi đang thử lệnh gợi ý của Adrian Kelly :

sudo mdadm --assemble --update=resync /dev/md0 /dev/sdb1 /dev/sdc1

Chờ đợi để xây dựng lại bây giờ ...


CẬP NHẬT (02 tháng 6 năm 2012): Không, vẫn còn ...


CẬP NHẬT (ngày 04 tháng 6 2012): PB lớn lên một mối quan tâm mà tôi bỏ qua: có lẽ /dev/sdc1đang gặp I / O lỗi . Tôi đã không bận tâm kiểm tra /dev/sdc1vì có vẻ như nó hoạt động tốt và nó hoàn toàn mới, nhưng lỗi I / O ở cuối ổ đĩa là một khả năng hợp lý.

Tôi đã mua những ổ cứng này để bán, vì vậy sẽ không có gì ngạc nhiên khi một trong số chúng đã bị lỗi. Thêm vào đó, cả hai đều không hỗ trợ cho SMART , vì vậy không có gì lạ khi chúng rẻ đến thế ...

Đây là quy trình phục hồi dữ liệu tôi vừa thực hiện và đang làm theo:

  1. sudo mdadm /dev/md0 --fail /dev/sdb1để tôi có thể đưa ra /dev/sdb1.
  2. sudo mdadm /dev/md0 --remove /dev/sdb1để loại bỏ /dev/sdb1khỏi mảng.
  3. /dev/sdc1 được gắn tại /media/DtkBk
  4. Định dạng /dev/sdb1như ext4.
  5. Gắn kết /dev/sdb1để /media/DtkBkTemp.
  6. cd /media để làm việc trong khu vực đó.
  7. sudo chown deltik DtkBkTempđể cho tôi deltikquyền (tên người dùng ) cho phân vùng.
  8. Làm bản sao của tất cả các tập tin và thư mục: sudo rsync -avzHXShP DtkBk/* DtkBkTemp

CẬP NHẬT (06 tháng 6 năm 2012): Tôi đã thực hiện một badblocksthử nghiệm chế độ ghi phá hủy /dev/sdc, theo các thủ tục sau:

  1. sudo umount /media/DtkBk để cho phép xé xuống mảng.
  2. sudo mdadm --stop /dev/md0 để dừng mảng.
  3. sudo badblocks -w -p 1 /dev/sdc -s -vđể xóa ổ cứng nghi ngờ và trong quá trình kiểm tra lỗi I / O. Nếu có lỗi I / O, đó không phải là một dấu hiệu tốt. Hy vọng, tôi có thể được hoàn lại tiền ...

Bây giờ tôi đã xác nhận rằng không có vấn đề đầu vào / đầu ra trên cả hai ổ cứng .

Từ tất cả các điều tra này, hai câu hỏi ban đầu của tôi vẫn đứng.


Câu hỏi của tôi là:

  1. Tại sao ổ đĩa dự phòng không hoạt động đồng bộ hóa?
  2. Làm thế nào tôi có thể làm cho ổ đĩa dự phòng trở nên hoạt động?

Câu trả lời:


14

Làm điều này chỉ đơn giản là điều khiển ổ đĩa vào mảng mà không thực sự làm gì với nó, tức là nó là thành viên của mảng nhưng không hoạt động trong đó. Theo mặc định, điều này biến nó thành một phụ tùng:

sudo mdadm /dev/md0 --add /dev/sdb1

Nếu bạn có một cái dự phòng, bạn có thể phát triển nó bằng cách buộc số lượng ổ đĩa hoạt động cho mảng phát triển. Với 3 ổ đĩa và 2 ổ đĩa dự kiến ​​sẽ hoạt động, bạn sẽ cần tăng số lượng hoạt động lên 3.

mdadm --grow /dev/md0 --raid-devices=3

Trình điều khiển mảng đột kích sẽ nhận thấy rằng bạn đang "rút ngắn" một ổ đĩa, và sau đó tìm kiếm một phụ tùng. Tìm phụ tùng, nó sẽ tích hợp nó vào mảng như một ổ đĩa hoạt động. Mở một thiết bị đầu cuối dự phòng và để dòng lệnh khá thô này chạy trong nó, để theo dõi tiến trình đồng bộ hóa lại. Đảm bảo nhập nó dưới dạng một dòng hoặc sử dụng ký tự ngắt dòng (\) và sau khi quá trình xây dựng lại kết thúc, chỉ cần nhập Ctrl-C trong thiết bị đầu cuối.

while true; do sleep 60; clear; sudo mdadm --detail /dev/md0; echo; cat /proc/mdstat; done

Mảng của bạn bây giờ sẽ có hai ổ đĩa hoạt động được đồng bộ hóa, nhưng vì không có 3 ổ đĩa nên nó sẽ không sạch 100%. Loại bỏ ổ đĩa không thành công, sau đó thay đổi kích thước mảng. Lưu ý rằng --growcờ là một chút sai lầm - nó có thể có nghĩa tăng hoặc thu hẹp:

sudo mdadm /dev/md0 --fail /dev/{failed drive}
sudo mdadm /dev/md0 --remove /dev/{failed drive}
sudo mdadm --grow /dev/md0 --raid-devices=2

Liên quan đến lỗi, một vấn đề liên kết với ổ đĩa (tức là cổng PATA / SATA, cáp hoặc đầu nối ổ đĩa) là không đủ để kích hoạt dự phòng dự phòng nóng, vì hạt nhân thường sẽ chuyển sang sử dụng "tốt" khác. ổ đĩa trong khi nó đặt lại liên kết đến ổ đĩa "xấu". Tôi biết điều này bởi vì tôi chạy một mảng 3 ổ đĩa, 2 nóng, 1 dự phòng và một trong những ổ đĩa gần đây đã quyết định barf lên một chút trong nhật ký. Khi tôi kiểm tra tất cả các ổ đĩa trong mảng, cả 3 đều vượt qua phiên bản "dài" của thử nghiệm SMART, do đó, không có vấn đề gì với các đĩa, linh kiện cơ khí hoặc bộ điều khiển trên bo mạch - để lại cáp liên kết dễ vỡ hoặc một cổng SATA xấu. Có lẽ đây là những gì bạn đang thấy. Hãy thử chuyển đổi ổ đĩa sang một cổng bo mạch chủ khác hoặc sử dụng một loại cáp khác và xem nó có cải thiện không.


Theo dõi: Tôi đã hoàn thành việc mở rộng nhân bản của mình thành 3 ổ đĩa, thất bại và loại bỏ ổ đĩa bị hỏng khỏi mảng md, tráo đổi cáp cho một cái mới (bo mạch chủ hỗ trợ điều này) và thêm lại ổ đĩa. Khi thêm lại, nó ngay lập tức bắt đầu đồng bộ lại ổ đĩa. Cho đến nay, không có một lỗi nào xuất hiện trong nhật ký mặc dù ổ đĩa được sử dụng rất nhiều. Vì vậy, có, cáp ổ đĩa có thể đi flakes.


Cáp liên kết không ổn định? Tôi mua lời giải thích đó, nhưng tôi không thể kiểm tra nó nữa vì tôi đã thanh lọc lại cả hai ổ đĩa cách đây nhiều tháng. Tôi chấp nhận câu trả lời này là câu trả lời tốt nhất cho vấn đề cụ thể của tôi, nhưng một câu trả lời tuyệt vời khác là câu trả lời này .
Deltik

Là một bản cập nhật, câu trả lời này vẫn hữu ích nhất với hầu hết mọi người, đó là lý do tại sao tôi đã chấp nhận nó, nhưng điều thực sự xảy ra là một trong những ổ đĩa trong mảng RAID 1 của tôi rất tệ, rất có thể /dev/sdc1là do /dev/sdc1đã được đọc trong khi /dev/sdb1đã được viết, và các thành phần xấu trong /dev/sdb1đó sẽ được ánh xạ lại trong suốt quá trình viết.
Deltik

1
Để giữ các tab trên trình resync làm watch -n 60 cat /proc/mdstatnơi 60là số giây giữa làm mới.
Erk

8

Tôi đã có cùng một vấn đề, và trong trường hợp của tôi, tôi đã phát hiện ra rằng đĩa đột kích hoạt động bị lỗi đọc trong quá trình đồng bộ hóa. Do đó, đĩa mới được đồng bộ hóa thành công mới hơn và do đó được giữ dấu là dự phòng.

Bạn có thể muốn kiểm tra / var / log / message và các nhật ký hệ thống khác để tìm lỗi. Ngoài ra, cũng có thể là một ý tưởng tốt để kiểm tra trạng thái SMART của đĩa của bạn:
1) Chạy thử nghiệm ngắn:

"smartctl -t ngắn / dev / sda"

2) Hiển thị kết quả kiểm tra:

"smartctl -l selftest / dev / sda"

Trong trường hợp của tôi, điều này trả về một cái gì đó như thế này:

=== BẮT ĐẦU ĐỌC PHẦN DỮ LIỆU THÔNG MINH ===
SMART Bản sửa đổi cấu trúc nhật ký tự kiểm tra số 1
Num Test_Des Trạng thái còn lại Thời gian sống (giờ) LBA_of_first_error
1 Ngoại tuyến mở rộng Đã hoàn thành: đọc thất bại 90% 7564 27134728
2 Ngoại tuyến ngắn Hoàn thành: đọc thất bại 90% 7467 1408449701

Tôi đã phải khởi động một bản phân phối trực tiếp và sao chép thủ công dữ liệu từ đĩa bị lỗi sang ổ đĩa mới (hiện tại là "dự phòng").


Aha! Tôi không nghĩ sẽ nghi ngờ ổ đĩa hoạt động cho lỗi I / O. Vì một số lý do, SMART không được hỗ trợ trên các ổ cứng này. Lỗi I / O này và có thể xảy ra trên hai ổ cứng hoàn toàn mới? Tôi nghĩ rằng tôi đã mua không tốt ... Dù sao, tôi đang thực hiện các quy trình phục hồi dữ liệu ngay bây giờ trên ổ cứng mà tôi biết là tốt. Tôi sẽ cập nhật sớm.
Deltik

+50 đại diện cho bạn PB . Không ai có thể trả lời chính xác câu hỏi của tôi, nhưng tôi đoán rằng thay vì lãng phí 50 điểm danh tiếng vào không có gì, tôi sẽ tặng chúng cho bạn như một món quà chào mừng. Chào mừng bạn đến với Sàn giao dịch Stack!
Deltik

3

Tôi đã có cùng một vấn đề và luôn nghĩ rằng đĩa thứ hai của tôi, mà tôi muốn thêm lại vào mảng có lỗi. Nhưng đó là đĩa gốc của tôi đã đọc lỗi.

Bạn có thể kiểm tra nó smartctl -t short /dev/sdXvà xem kết quả một vài phút sau với smartctl -l selftest /dev/sdX. Đối với tôi nó trông như thế này:

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       20%     25151         734566647

Tôi đã cố gắng sửa chúng với hướng dẫn này . Đó là niềm vui :-). Tôi biết bạn đã kiểm tra cả hai đĩa để tìm lỗi, nhưng tôi nghĩ vấn đề của bạn là, đĩa vẫn còn trong mảng md đã đọc lỗi, vì vậy việc thêm đĩa thứ hai không thành công.

Cập nhật

Bạn nên chạy thêm smartctl -a /dev/sdX Nếu bạn thấy Current_Pending_Sector> 0 có gì đó không đúng

197 Hiện tại_Pending_Sector 0x0012 098 098 000 Old_age Luôn luôn - 69

Đối với tôi, đó chắc chắn là vấn đề mà tôi đã gỡ bỏ một đĩa khỏi cuộc đột kích chỉ để kiểm tra và đồng bộ hóa lại không thể thực hiện được do lỗi đọc. Đồng bộ bị hủy bỏ một nửa. Khi tôi kiểm tra đĩa của mình vẫn còn trong mảng đột kích smartctl đã báo cáo sự cố.

Tôi có thể sửa chúng bằng hướng dẫn ở trên và thấy số lượng các lĩnh vực đang chờ xử lý giảm. Nhưng có rất nhiều và đó là một quá trình dài và nhàm chán vì vậy tôi đã sử dụng bản sao lưu của mình và khôi phục dữ liệu trên một máy chủ khác.

Vì bạn không có cơ hội sử dụng SMART, tôi đoán rằng bài kiểm tra tự kiểm tra của bạn không hiển thị những khu vực bị hỏng đó.

Đối với tôi đó là một bài học kinh nghiệm: Kiểm tra đĩa của bạn trước khi bạn loại bỏ một đĩa khỏi mảng của bạn.


Vào thời điểm bạn trả lời, mảng RAID 1 đã không còn tồn tại và cả hai ổ đĩa đều không có lỗi I / O. Bạn có thể xác minh rằng câu trả lời của bạn là áp dụng?
Deltik

Cuối cùng được chấp nhận. Câu trả lời này có khả năng nhất để giúp du khách trong tương lai. Tôi, tôi đã từ bỏ RAID nói chung. Nó không giống như tôi sở hữu một trung tâm dữ liệu.
Deltik

Đây không còn là câu trả lời được chấp nhận, nhưng nó vẫn là một câu trả lời tốt và có thể giúp đỡ người khác. Câu trả lời này là phù hợp nhất với tôi, nhưng câu trả lời này có lẽ là áp dụng nhất cho người khác. Ngoài ra, tôi lấy lại những gì tôi đã nói về RAID trong bình luận này .
Deltik

3

Tôi đã có một vấn đề tương tự và đã khắc phục nó bằng cách tăng số lượng đĩa RAID từ 1 lên 2.

mdadm --grow --raid-devices=2 /dev/md1

3

CẬP NHẬT (24 tháng 5 năm 2015): Sau ba năm, tôi đã điều tra nguyên nhân thực sự khiến mảng RAID 1 bị xuống cấp.

tl; dr: Một trong những ổ đĩa rất tệ và tôi không nhận thấy điều này vì tôi chỉ chạy thử nghiệm toàn bộ bề mặt trên ổ đĩa tốt.

Ba năm trước, tôi đã không nghĩ sẽ kiểm tra bất kỳ nhật ký nào về các vấn đề I / O. Nếu tôi nghĩ kiểm tra /var/log/syslog, tôi sẽ thấy một cái gì đó như thế này khi mdadmtừ bỏ việc xây dựng lại mảng:

May 24 14:08:32 node51 kernel: [51887.853786] sd 8:0:0:0: [sdi] Unhandled sense code
May 24 14:08:32 node51 kernel: [51887.853794] sd 8:0:0:0: [sdi]
May 24 14:08:32 node51 kernel: [51887.853798] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
May 24 14:08:32 node51 kernel: [51887.853802] sd 8:0:0:0: [sdi]
May 24 14:08:32 node51 kernel: [51887.853805] Sense Key : Medium Error [current]
May 24 14:08:32 node51 kernel: [51887.853812] sd 8:0:0:0: [sdi]
May 24 14:08:32 node51 kernel: [51887.853815] Add. Sense: Unrecovered read error
May 24 14:08:32 node51 kernel: [51887.853819] sd 8:0:0:0: [sdi] CDB:
May 24 14:08:32 node51 kernel: [51887.853822] Read(10): 28 00 00 1b 6e 00 00 00 01 00
May 24 14:08:32 node51 kernel: [51887.853836] end_request: critical medium error, dev sdi, sector 14381056
May 24 14:08:32 node51 kernel: [51887.853849] Buffer I/O error on device sdi, logical block 1797632

Để có được đầu ra đó trong nhật ký, tôi đã tìm đến LBA có vấn đề đầu tiên (14381058, trong trường hợp của tôi) bằng lệnh này:

root@node51 [~]# dd if=/dev/sdi of=/dev/zero bs=512 count=1 skip=14381058
dd: error reading ‘/dev/sdi’: Input/output error
0+0 records in
0+0 records out
0 bytes (0 B) copied, 7.49287 s, 0.0 kB/s

Không có thắc mắc mdđã từ bỏ! Nó không thể xây dựng lại một mảng từ một ổ đĩa xấu.

Công nghệ mới ( smartmontoolskhả năng tương thích phần cứng tốt hơn ?) Đã cho phép tôi lấy thông tin SMART ra khỏi ổ đĩa, bao gồm năm lỗi mới nhất (trong số 1393 lỗi cho đến nay):

root@node51 [~]# smartctl -a /dev/sdi
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-43-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi Deskstar 5K3000
Device Model:     Hitachi HDS5C3020ALA632
Serial Number:    ML2220FA040K9E
LU WWN Device Id: 5 000cca 36ac1d394
Firmware Version: ML6OA800
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    5940 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 2.6, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sun May 24 14:13:35 2015 CDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART STATUS RETURN: incomplete response, ATA output registers missing
SMART overall-health self-assessment test result: PASSED
Warning: This result is based on an Attribute check.

General SMART Values:
Offline data collection status:  (0x84) Offline data collection activity
                                        was suspended by an interrupting command from host.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (21438) seconds.
Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 358) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   136   136   054    Pre-fail  Offline      -       93
  3 Spin_Up_Time            0x0007   172   172   024    Pre-fail  Always       -       277 (Average 362)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       174
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       8
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   146   146   020    Pre-fail  Offline      -       29
  9 Power_On_Hours          0x0012   097   097   000    Old_age   Always       -       22419
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       161
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       900
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       900
194 Temperature_Celsius     0x0002   127   127   000    Old_age   Always       -       47 (Min/Max 19/60)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       8
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       30
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       2

SMART Error Log Version: 1
ATA Error Count: 1393 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 1393 occurred at disk power-on lifetime: 22419 hours (934 days + 3 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 06 02 70 db 00  Error: UNC 6 sectors at LBA = 0x00db7002 = 14381058

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 08 00 70 db 40 00   1d+03:59:34.096  READ DMA EXT
  25 00 08 00 70 db 40 00   1d+03:59:30.334  READ DMA EXT
  b0 d5 01 09 4f c2 00 00   1d+03:57:59.057  SMART READ LOG
  b0 d5 01 06 4f c2 00 00   1d+03:57:58.766  SMART READ LOG
  b0 d5 01 01 4f c2 00 00   1d+03:57:58.476  SMART READ LOG

Error 1392 occurred at disk power-on lifetime: 22419 hours (934 days + 3 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 06 02 70 db 00  Error: UNC 6 sectors at LBA = 0x00db7002 = 14381058

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 08 00 70 db 40 00   1d+03:59:30.334  READ DMA EXT
  b0 d5 01 09 4f c2 00 00   1d+03:57:59.057  SMART READ LOG
  b0 d5 01 06 4f c2 00 00   1d+03:57:58.766  SMART READ LOG
  b0 d5 01 01 4f c2 00 00   1d+03:57:58.476  SMART READ LOG
  b0 d5 01 00 4f c2 00 00   1d+03:57:58.475  SMART READ LOG

Error 1391 occurred at disk power-on lifetime: 22419 hours (934 days + 3 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 06 02 70 db 00  Error: UNC 6 sectors at LBA = 0x00db7002 = 14381058

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 08 00 70 db 40 00   1d+03:56:28.228  READ DMA EXT
  25 00 08 00 70 db 40 00   1d+03:56:24.549  READ DMA EXT
  25 00 08 00 70 db 40 00   1d+03:56:06.711  READ DMA EXT
  25 00 10 f0 71 db 40 00   1d+03:56:06.711  READ DMA EXT
  25 00 f0 00 71 db 40 00   1d+03:56:06.710  READ DMA EXT

Error 1390 occurred at disk power-on lifetime: 22419 hours (934 days + 3 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 06 02 70 db 00  Error: UNC 6 sectors at LBA = 0x00db7002 = 14381058

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 08 00 70 db 40 00   1d+03:56:24.549  READ DMA EXT
  25 00 08 00 70 db 40 00   1d+03:56:06.711  READ DMA EXT
  25 00 10 f0 71 db 40 00   1d+03:56:06.711  READ DMA EXT
  25 00 f0 00 71 db 40 00   1d+03:56:06.710  READ DMA EXT
  25 00 10 f0 70 db 40 00   1d+03:56:06.687  READ DMA EXT

Error 1389 occurred at disk power-on lifetime: 22419 hours (934 days + 3 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 06 02 70 db 00  Error: UNC 6 sectors at LBA = 0x00db7002 = 14381058

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 08 00 70 db 40 00   1d+03:56:06.711  READ DMA EXT
  25 00 10 f0 71 db 40 00   1d+03:56:06.711  READ DMA EXT
  25 00 f0 00 71 db 40 00   1d+03:56:06.710  READ DMA EXT
  25 00 10 f0 70 db 40 00   1d+03:56:06.687  READ DMA EXT
  25 00 f0 00 70 db 40 00   1d+03:56:03.026  READ DMA EXT

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%     21249         14381058

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Ahh, đó là làm điều đó.

Bây giờ, tôi đã giải quyết câu hỏi này bằng ba bước đơn giản:

  1. Trở thành một quản trị hệ thống trong ba năm.
  2. Kiểm tra các bản ghi.
  3. Hãy quay lại với Super User và cười theo cách tiếp cận của tôi từ ba năm trước .

CẬP NHẬT (19 tháng 7 năm 2015): Đối với bất kỳ ai tò mò, ổ đĩa cuối cùng đã hết các ngành để ánh xạ lại:

root@node51 [~]# smartctl -a /dev/sdg
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-43-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi Deskstar 5K3000
Device Model:     Hitachi HDS5C3020ALA632
Serial Number:    ML2220FA040K9E
LU WWN Device Id: 5 000cca 36ac1d394
Firmware Version: ML6OA800
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    5940 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 2.6, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sun Jul 19 14:00:33 2015 CDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART STATUS RETURN: incomplete response, ATA output registers missing
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
See vendor-specific Attribute list for failed Attributes.

General SMART Values:
Offline data collection status:  (0x85) Offline data collection activity
                                        was aborted by an interrupting command from host.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 117) The previous self-test completed having
                                        the read element of the test failed.
Total time to complete Offline
data collection:                (21438) seconds.
Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 358) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   099   099   016    Pre-fail  Always       -       2
  2 Throughput_Performance  0x0005   136   136   054    Pre-fail  Offline      -       93
  3 Spin_Up_Time            0x0007   163   163   024    Pre-fail  Always       -       318 (Average 355)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       181
  5 Reallocated_Sector_Ct   0x0033   001   001   005    Pre-fail  Always   FAILING_NOW 1978
  7 Seek_Error_Rate         0x000b   086   086   067    Pre-fail  Always       -       1245192
  8 Seek_Time_Performance   0x0005   146   146   020    Pre-fail  Offline      -       29
  9 Power_On_Hours          0x0012   097   097   000    Old_age   Always       -       23763
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       167
192 Power-Off_Retract_Count 0x0032   092   092   000    Old_age   Always       -       10251
193 Load_Cycle_Count        0x0012   092   092   000    Old_age   Always       -       10251
194 Temperature_Celsius     0x0002   111   111   000    Old_age   Always       -       54 (Min/Max 19/63)
196 Reallocated_Event_Count 0x0032   001   001   000    Old_age   Always       -       2927
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       33
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       2

SMART Error Log Version: 1
ATA Error Count: 2240 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 2240 occurred at disk power-on lifetime: 23763 hours (990 days + 3 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 f0 18 0f 2f 00  Error: IDNF 240 sectors at LBA = 0x002f0f18 = 3084056

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  35 00 f0 18 0f 2f 40 00      00:25:01.942  WRITE DMA EXT
  35 00 f0 28 0e 2f 40 00      00:25:01.168  WRITE DMA EXT
  35 00 f0 38 0d 2f 40 00      00:25:01.157  WRITE DMA EXT
  35 00 f0 48 0c 2f 40 00      00:25:01.147  WRITE DMA EXT
  35 00 f0 58 0b 2f 40 00      00:25:01.136  WRITE DMA EXT

Error 2239 occurred at disk power-on lifetime: 23763 hours (990 days + 3 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 5a 4e f7 2e 00  Error: IDNF 90 sectors at LBA = 0x002ef74e = 3077966

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  35 00 f0 b8 f6 2e 40 00      00:24:57.967  WRITE DMA EXT
  35 00 f0 c8 f5 2e 40 00      00:24:57.956  WRITE DMA EXT
  35 00 f0 d8 f4 2e 40 00      00:24:57.945  WRITE DMA EXT
  35 00 f0 e8 f3 2e 40 00      00:24:57.934  WRITE DMA EXT
  35 00 f0 f8 f2 2e 40 00      00:24:57.924  WRITE DMA EXT

Error 2238 occurred at disk power-on lifetime: 23763 hours (990 days + 3 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 40 a8 c6 2e 00  Error: IDNF 64 sectors at LBA = 0x002ec6a8 = 3065512

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  35 00 f0 f8 c5 2e 40 00      00:24:49.444  WRITE DMA EXT
  35 00 f0 08 c5 2e 40 00      00:24:49.433  WRITE DMA EXT
  35 00 f0 18 c4 2e 40 00      00:24:49.422  WRITE DMA EXT
  35 00 f0 28 c3 2e 40 00      00:24:49.412  WRITE DMA EXT
  35 00 f0 38 c2 2e 40 00      00:24:49.401  WRITE DMA EXT

Error 2237 occurred at disk power-on lifetime: 23763 hours (990 days + 3 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 ea be ba 2e 00  Error: IDNF 234 sectors at LBA = 0x002ebabe = 3062462

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  35 00 f0 b8 ba 2e 40 00      00:24:39.263  WRITE DMA EXT
  35 00 f0 c8 b9 2e 40 00      00:24:38.885  WRITE DMA EXT
  35 00 f0 d8 b8 2e 40 00      00:24:38.874  WRITE DMA EXT
  35 00 f0 e8 b7 2e 40 00      00:24:38.862  WRITE DMA EXT
  35 00 f0 f8 b6 2e 40 00      00:24:38.852  WRITE DMA EXT

Error 2236 occurred at disk power-on lifetime: 23763 hours (990 days + 3 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 86 c2 2a 2e 00  Error: IDNF 134 sectors at LBA = 0x002e2ac2 = 3025602

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  35 00 f0 58 2a 2e 40 00      00:24:25.605  WRITE DMA EXT
  35 00 f0 68 29 2e 40 00      00:24:25.594  WRITE DMA EXT
  35 00 f0 78 28 2e 40 00      00:24:25.583  WRITE DMA EXT
  35 00 f0 88 27 2e 40 00      00:24:25.572  WRITE DMA EXT
  35 00 f0 98 26 2e 40 00      00:24:25.561  WRITE DMA EXT

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short captive       Completed: read failure       50%     23763         869280
# 2  Extended offline    Completed without error       00%     22451         -
# 3  Short offline       Completed without error       00%     22439         -
# 4  Extended offline    Completed: read failure       90%     21249         14381058
1 of 2 failed self-tests are outdated by newer successful extended offline self-test # 2

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

1
vâng, chính xác những gì vừa xảy ra với RAID của tôi! Đây là câu trả lời thực tế cho câu hỏi của riêng bạn! Cảm ơn vì đã cập nhật thông tin này !!!
Preexo

1

Trong trường hợp của tôi, nó là đĩa nguồn xấu quá. Mặc dù nó trông giống như thời gian không như vậy (/ Proc / mdstat đã tiến triển trên 99,9% bình thường - nhưng thực tế nó đã thất bại ở mức 99,97%, điều này xảy ra khi đồng bộ hóa thông thường sẽ kết thúc). Vì vậy, bạn cần kiểm tra dmesg(1)đầu ra - nó sẽ cho bạn biết nếu có bất kỳ lỗi đọc nào.

Bạn có thể xem chi tiết về trường hợp của tôi trong lỗi Debian # 767243 . Cuối cùng tôi đã xoay sở để hoàn thành việc đồng bộ hóa bằng cách ghi đè lên một số thành phần xấu trên đĩa nguồn (điều may mắn không được sử dụng trong trường hợp của tôi, nếu không sẽ bị mất dữ liệu)


0

Bạn có thể thử

sudo mdadm --assemble --update=resync /dev/md0 /dev/sdb1 /dev/sdc1

để cập nhật các ổ đĩa và đồng bộ lại chúng.


Thử ngay bây giờ ... Tôi sẽ báo cáo lại khi việc xây dựng lại được cho là hoàn thành.
Deltik

Không hoạt động. /dev/sdb1vẫn không trở nên "hoạt động" sau khi được xây dựng lại như một phụ tùng.
Deltik

0

Không chắc nó có hoạt động không vì bạn đã --addchỉnh sửa đĩa nhưng--re-add dường như là tùy chọn bạn cần.

Hoặc có lẽ bạn cần --growthiết bị cho 2 đĩa hoạt động , mdadm --grow -n 2? Không được kiểm tra nên hãy cẩn thận.


sudo mdadm --grow -n 2là một trong những điều đầu tiên tôi làm, vì vậy đó là lý do tại sao sudo mdadm --detail /dev/md0hiển thị hai vị trí. Xin lỗi, nó không hoạt động.
Deltik

0

Tôi khuyên bạn nên xóa sdc1, hủy bỏ siêu khối trên sdc1 và sau đó thêm lại.

mdadm /dev/md0 -r /dev/sdc1
mdadm --zero-superblock /dev/sdc1
mdadm /dev/md0 -a /dev/sdc1

Tôi đã chuyển dữ liệu của mình vào từng ổ cứng trong khi tôi hủy bỏ siêu khối trên ổ cứng kia. Vấn đề tôi đang gặp phải ngay cả khi giải trí hoàn toàn mảng RAID 1.
Deltik
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.