Có thể là một ổ cứng sắp chết, nhưng đọc, ghi công việc - không chắc chắn về các mục nhật ký


4

Gần đây tôi đã nhận được một hộp Linux có vấn đề với chia sẻ Samba - trước hết, không thể kết nối, thứ hai ls -lacho thấy một số I/O error(gần với những gì có thể nhìn thấy bên dưới) không có danh sách.

Bây giờ, tôi đã cập nhật đầy đủ hộp và sau khi cập nhật, RAID vẫn ổn, tất cả dữ liệu có thể truy cập và Samba hoạt động như một bùa mê. Rõ ràng, tôi đã không lưu các bản ghi trước đó.

Bây giờ, ngay cả khi mọi thứ hoạt động, theo thời gian, điều này bật lên trong tôi journalctl:

kernel: ata4: EH complete
kernel: end_request: I/O error, dev sdc, sector 2839546656
kernel: cdb[0]=0x28: 28 00 a9 40 0b 20 00 00 f0 00
kernel: sd 3:0:0:0: [sdc] CDB:
kernel: ASC=0x47 ASCQ=0x0
kernel: sd 3:0:0:0: [sdc]
kernel:         a9 40 0b a0
kernel:         72 0b 47 00 00 00 00 0c 00 0a 80 00 00 00 00 00
kernel: Descriptor sense data with sense descriptors (in hex):
kernel: Sense Key : 0xb [current] [descriptor]
kernel: sd 3:0:0:0: [sdc]
kernel: Result: hostbyte=0x00 driverbyte=0x08
kernel: sd 3:0:0:0: [sdc]
kernel: ata4.00: configured for UDMA/133
kernel: ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 330)
kernel: ata4: hard resetting link
kernel: ata4.00: error: { ICRC ABRT }
kernel: ata4.00: status: { DRDY ERR }
kernel: [145B blob data]
kernel: ata4.00: failed command: READ DMA EXT
kernel: ata4: SError: { UnrecovData 10B8B BadCRC }
kernel: ata4.00: BMDMA stat 0x26
kernel: ata4.00: exception Emask 0x10 SAct 0x0 SErr 0x280100 action 0x6

smartctl -t extended (Quét dài (tối đa) SMART cho biết chưa có gì ba lần.

"Tất cả mọi thứ hoạt động", ý tôi là:

// Read from drive, write to drive.
find > files.txt

// Another read->write.
du -bc > sizes.txt

// 100 GB random writer
dd if=/dev/urandom of=fillerd bs=512 count=209715200

Các tập tin cuối cùng không tham nhũng, hoàn toàn có thể đọc được.

Lỗi mô tả cái gì? Tôi có nên lo lắng không? Làm thế nào để tôi sửa nó?

Câu trả lời:


5

Các mục nhật ký nổi bật là:

  • kernel: ata4.00: lỗi: {ICRC ABRT}
  • kernel: ata4: SError: {UnrecovData 10B8B BadCRC}

Các mục nhật ký này cho biết có lỗi xảy ra trên giao diện SATA giữa PC và HDD.
Giao diện SATA mang các gói ATAPI cho dữ liệu, lệnh và báo cáo trạng thái được xác minh bằng CRC, Kiểm tra dự phòng chu kỳ, mã.
Các ICRC ABRTthông điệp chỉ ra một "lỗi Interface CRC" sự kiện và rằng "Command hủy bỏ". Các mục nhật ký khác là thông tin phụ trợ liên quan đến lệnh đã bị hủy bỏ.
Đây không phải là báo cáo lỗi liên quan đến đầu R / W hoặc đĩa cứng của ổ cứng, vì các thành phần được xác minh bằng ECC, không phải CRC yếu hơn.
Thông tin chi tiết hơn về những tin nhắn này có tại trang wiki libata này


Xem câu hỏi tương tự này trên "Ổ đĩa SATA hoặc chipset ném DRDY ERR và ICRC ABRT" , trong đó nguồn gốc của vấn đề được quy cho phía máy chủ của giao diện SATA chứ không phải ổ cứng.

Lưu ý rằng lỗi giao diện SATA không thường xuyên không được coi là có vấn đề:

   For SATA drives, occasional transmission problems are expected even on
   otherwise pretty healthy systems. No need to worry about it too much
   unless the problem repeats itself a lot.

trích dẫn từ bài viết Linux này .


smartctl -t mở rộng (quét dài (tối đa) thông minh) cho biết chưa có gì ba lần.

Kiểm tra mở rộng SMART là tự kiểm tra được thực hiện cục bộ trên ổ đĩa và dường như không làm căng thẳng giao diện SATA. Do đó, nó không giúp giải quyết vấn đề, nhưng không củng cố quan niệm rằng vấn đề nằm ở giao diện chứ không phải phương tiện truyền thông.

Bạn cần tìm kiếm một máy chẩn đoán đĩa hoặc máy tập thể dục thực thi từ máy chủ.
Vì thử nghiệm SMART mở rộng rõ ràng có thể đọc mọi khu vực mà không gặp lỗi, một thử nghiệm gần giống nhau để đọc mọi khu vực và chuyển khu vực đó sang PC qua bus SATA là:

dd if=/dev/sdc of=/dev/null

Sẽ có ba nguồn lỗi phần cứng trên giao diện SATA:

  • cáp SATA. ví dụ như ổ đĩa của tôi đang chết?
    Kiểm tra đơn giản : thay thế cáp.
  • giao diện SATA của bo mạch chủ.
    Kiểm tra : sử dụng cổng SATA khác hoặc cài đặt giao diện thay thế, chẳng hạn như bộ chuyển đổi PCI hoặc USB sang SATA bằng cáp mới.
  • giao diện SATA của ổ đĩa.
    Kiểm tra : cài đặt ổ cứng trong một PC khác bằng cáp mới và xem lỗi có theo ổ đĩa không.

Nhưng bên cạnh lỗi phần cứng cho vấn đề này, đã có báo cáo cho rằng hạt nhân Linux là nguyên nhân gây ra lỗi SATA:


Dòng dưới cùng

Nếu bạn chỉ nhìn thấy những ICRC ABRTmục này trong nhật ký với tốc độ " không thường xuyên " , thì bạn có thể không còn gặp vấn đề nữa. Có lẽ các vấn đề ban đầu có thể là do một số vấn đề hạt nhân đã được loại bỏ khi bạn cập nhật hệ thống.

Hãy thử sử dụng hệ thống, và sao lưu siêng năng.


Đây dường như là vấn đề thực sự. Một cái gì đó sai với các kết nối, bởi vì sau một số lỗi với phần cứng, các lỗi đã dừng lại.
joltmode

1

Bất kể hệ điều hành nào, tôi luôn thấy rằng sau khi mọi thứ kỳ lạ như thế này bắt đầu xảy ra với một ổ cứng nhất định, nó gần như chắc chắn sẽ bị hỏng trong vài tháng tới. Nếu có thể, tôi khuyên bạn nên thay thế ổ cứng bằng một cái mới. Các triệu chứng khác với ổ cứng bị hỏng sẽ là các tệp không sử dụng được mà bạn vẫn có thể sao chép và di chuyển xung quanh và các chương trình có một số điểm bất ngờ.

Trong một trong những máy tính xách tay của tôi, ổ cứng đã hết. Điều xảy ra là tôi có thể khởi động hệ điều hành tốt, nhưng đột nhiên các thông báo lỗi bắt đầu xuất hiện về các quy trình kỳ lạ nhất của HĐH khi thực hiện các hành động chỉ hoạt động tốt một phút trước đó - một trong các tệp hệ thống hệ điều hành bị hỏng do ổ cứng bị hỏng. Sau khi thay thế ổ cứng, điều này đã dừng hoàn toàn và hệ thống đã hoạt động tốt trong 4 năm cho đến nay.

Bạn cũng có thể thử chạy một bản quét SMART đầy đủ của ổ cứng. Bạn có thể tìm thấy những thứ từ trang web của nhà sản xuất. Seagate và Western Digital, ít nhất, có một, nhưng tôi không chắc liệu chúng có sẵn cho Linux hay không. Đôi khi quét toàn bộ sẽ cho thấy một ổ đĩa bị hỏng, rằng quét nhanh trong khi POST sẽ không bắt được.

Chỉnh sửa: Tôi đã tìm thấy cái này cho Linux, nhưng tôi không có kinh nghiệm cá nhân với nó: http://sourceforge.net/apps/trac/smartmontools/wiki


Giải quyết các thông báo lỗi hoàn toàn ngẫu nhiên và / hoặc sự cố: đây cũng có thể là dấu hiệu của các lỗi khác, chẳng hạn như RAM.
Bob

Bộ nhớ ngoại lệ ngẫu nhiên;) Cũng có thể, do đó, việc chạy Memtest86 ( memtest86.com/doad.htmlm ) hoặc tương tự cũng là một việc nên làm.
Juha Untinen

Tôi đã chạy S.M.A.R.T.quét với smartmontools.
joltmode

À, được rồi Sau đó, kiểm tra bộ nhớ sẽ là điều tiếp theo phải làm.
Juha Untinen

0

Ổ cứng của bạn đang trên đường ra (mặc dù kết quả thông minh). Có thể đó là bộ điều khiển, nhưng ổ cứng có nhiều khả năng hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.