Những định dạng tệp lưu trữ cung cấp bảo vệ phục hồi chống tham nhũng tập tin?


10

Tôi sử dụng ổ cứng gắn ngoài để sao lưu các tệp của mình bằng cách đưa chúng vào các tệp lưu trữ lớn.

Tôi có hàng ngàn tệp nhỏ và đưa chúng vào kho lưu trữ có kích thước từ 500MB đến 4.2GB, trước khi gửi chúng vào ổ cứng ngoài. Nhưng, có phải một lỗi đĩa cứng phá hủy toàn bộ kho lưu trữ hoặc chỉ một tệp trong kho lưu trữ không? Tôi sợ rằng một bit lật có thể khiến các phần lớn của kho lưu trữ trở nên vô dụng.

Những thứ như kiểm tra CRC có thể cảnh báo bạn về sự tồn tại của tham nhũng, nhưng tôi quan tâm hơn đến khả năng khôi phục các tệp không bị hư hại từ kho lưu trữ bị hỏng. Định dạng tệp lưu trữ nào sẽ cung cấp khả năng phục hồi tốt nhất từ ​​các lỗi đó, thông qua thiết kế gốc của cấu trúc lưu trữ hoặc sự tồn tại của các công cụ khôi phục bổ sung? Có sự khác biệt nào về khả năng này giữa các tệp zip và iso không?


Tôi biết ít nhất một trong những chương trình tôi sử dụng để đồng bộ hóa tệp hỗ trợ sao chép đa luồng, điều mà tôi tin rằng giảm nhẹ một số sự chậm chạp trong việc sao chép nhiều tệp nhỏ; Ngoài ra, mặc dù tôi sẽ phải kiểm tra để chắc chắn, tôi có một nghi ngờ rằng việc tạo một kho lưu trữ nhiều tệp nhỏ cũng sẽ mất nhiều thời gian hơn so với việc tạo một kho lưu trữ cho một số tệp lớn, ngay cả khi không sử dụng nén. Tuy nhiên, tôi không nhớ đây có phải là sự cố chỉ dành cho Windows hay không; iirc, có một số giải pháp phần mềm có sẵn cho Linux có thể xử lý nhiều tệp nhỏ trong các khối, nhưng tôi không thể nhớ lại các chi tiết.
JAB

Vui lòng mở lại câu hỏi. Tôi đã điều chỉnh lại nó, và nó sẽ rõ ràng hơn bây giờ. "Tốt nhất" sẽ luôn dựa trên ý kiến, nhưng yêu cầu phải tốt nhất ở đây là khá rõ ràng. Phòng nhỏ cho cá nhân IMHO. Vui lòng xóa bình luận này sau khi mở lại.
Marcel

Câu trả lời:


8

Cho rằng một thiệt hại cho một phần thư mục của bất kỳ kho lưu trữ nào có khả năng khiến toàn bộ kho lưu trữ trở nên vô dụng, cách tốt nhất của bạn là thêm một bước riêng vào quy trình sao lưu của bạn để tạo ra cái gọi là các tệp chẵn lẻ . Trong trường hợp nếu một khối dữ liệu trong tệp gốc bị hỏng, nó có thể được xây dựng lại bằng cách kết hợp dữ liệu từ tệp chẵn lẻ với các khối hợp lệ từ tệp gốc.

Biến số đó sẽ là mức độ thiệt hại mà bạn muốn có thể sửa chữa. Nếu bạn muốn bảo vệ chống lại một lần lật, thì tệp chẵn lẻ của bạn sẽ chỉ có kích thước 1 bit. Nếu bạn muốn một cái gì đó trong một giai điệu của kích thước khu vực đĩa, thì rõ ràng nó sẽ khiến bạn tốn nhiều tiền hơn.

Có một lý thuyết lớn đằng sau điều này (xem phần Sửa lỗi Chuyển tiếp ) và nó được sử dụng rộng rãi trong thực tế. Ví dụ, đây là cách CD có thể chịu được mức độ trầy xước nhất định và cách điện thoại di động có thể duy trì chất lượng cuộc gọi hợp lý qua các kết nối bị mất.

Câu chuyện dài, hãy xem .parcác tập tin.


1
Cảm ơn, trong khi tìm kiếm các tệp chẵn lẻ, tôi thấy bản ghi phục hồi của WinRAR đơn giản hơn trong sử dụng hàng ngày. Tôi cũng sẽ thử QuickPar.
sevenkul

2
Một bit dữ liệu sửa lỗi là không đủ để sửa lỗi một bit trong tệp dữ liệu n bit của bạn. Bạn có thể phát hiện ra một lỗi như vậy với một bit đơn lẻ, nhưng để sửa chữa nó, bạn cần ít nhất log n bit.
Thom Smith

4

Bup [1] sao lưu mọi thứ và tự động thêm vào sự dư thừa chẵn lẻ, khiến cho việc quay bit cực kỳ khó xảy ra. Lỗi đĩa thảm khốc vẫn là một điều, vì vậy chúng ta có thể sử dụng nó với git-annex.

git-annex [2] quản lý các tệp được lưu trữ trên nhiều kho lưu trữ, một số trong đó có thể được lưu trữ trên máy tính của bạn, ổ đĩa ngón tay, đăng nhập ssh, một số dịch vụ đám mây hoặc kho lưu trữ sao lưu bup [3], cho phép dữ liệu tệp lưu chuyển khá rõ ràng theo yêu cầu hoặc tự động vào bất kỳ kho lưu trữ nào bạn đã đặt. Đây cũng là một dự án phần mềm nguồn mở và miễn phí được đám đông tài trợ, được viết bằng Haskell với các phiên bản chạy trên nhiều nền tảng, bao gồm linux, mac, windows và android.

[1] https://github.com/bup/bup

[2] http://git-annex.branchable.com/

[3] http://git-annex.branchable.com/special_remotes/bup/


3

Nhưng, một lỗi ổ cứng có phá hủy toàn bộ kho lưu trữ hay chỉ một tệp trong kho lưu trữ không?

Nếu thực sự không có cách nào khác để sao chép mọi thứ như một kho lưu trữ lớn, bạn có thể phải đưa ra quyết định giữa việc sử dụng kho lưu trữ nén hoặc không nén.

Nội dung của các tài liệu lưu trữ không nén như tarball vẫn có thể được phát hiện bằng phần mềm khôi phục tệp ngay cả khi bản thân tệp lưu trữ không thể đọc được (ví dụ do tiêu đề bị hỏng).

Sử dụng lưu trữ nén có thể nguy hiểm vì một số có thể từ chối trích xuất tệp nếu xảy ra lỗi tổng kiểm tra có thể gây ra ngay cả khi chỉ một bit của tệp lưu trữ thay đổi.

Tất nhiên người ta có thể giảm thiểu rủi ro bằng cách không lưu trữ hàng trăm tệp vào một kho lưu trữ nén nhưng hàng trăm tệp nén vào một kho lưu trữ không nén.

gzip *
tar cf archive.tar *.gz

Mặc dù tôi chưa bao giờ thấy nhiều tập tin được nén trong tarball trong động vật hoang dã trước đây. Chỉ ngược lại là phổ biến (tức là các tập tin tar.gz).

Có sự khác biệt nào giữa các tập tin zip và iso không?

ZIP là một kho lưu trữ nén (hầu hết nhưng không nhất thiết) và ISO là định dạng cho biết dữ liệu thô được sao chép trên cơ sở cấp thấp từ đĩa quang vào tệp. Cái sau có thể chứa mọi thứ theo nghĩa đen.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.