Bảo vệ dữ liệu chống thối bit


8

Tôi đã nhận ra rằng tôi cần phải bảo vệ tất cả các bức ảnh của mình chống lại sự thối bit (hỏng tập tin xảy ra ngẫu nhiên do lỗi trong ổ đĩa cứng hoặc chuyển mạng).

Gần đây tôi đã phát hiện ra par2 có vẻ như là một chương trình tuyệt vời để tạo các tệp dự phòng và cung cấp khả năng phát hiện và sửa chữa các hỏng tệp.

Tôi không nghĩ rằng hệ thống tệp nhật ký là giải pháp phù hợp ở đây, vì tôi muốn bảo vệ theo cùng với các tệp vào bản sao lưu của mình và khi di chuyển vào máy tính xách tay mới.

Vì vậy, những gì tôi nghĩ rằng tôi cần là một kịch bản có thể được chạy như một cronjob, có thể mỗi giờ một lần. Nó sẽ xem qua tất cả các tệp cần bảo vệ và cập nhật các tệp dự phòng nếu các tệp được thêm hoặc thay đổi (tệp đã chỉnh sửa dấu thời gian mới hơn dự phòng arhive) và nó sẽ sửa chữa các tệp nếu bất kỳ tệp nào bị hỏng (tệp đã thay đổi nhưng chỉnh sửa dấu thời gian chưa được cập nhật).

Có kịch bản hoặc chương trình nào sẽ làm điều này? Hoặc có những chương trình giải quyết vấn đề theo cách khác? Hoặc tôi chỉ nên tự viết một kịch bản như vậy (tôi không muốn, tôi muốn một cái gì đó mạnh mẽ và được thử nghiệm bởi nhiều người dùng)?


2
Bạn có chắc chắn rằng tham nhũng tệp ngẫu nhiên (bitrot) là vấn đề của bạn? Đó là một trường hợp siêu hiếm (tôi chưa thấy nó xảy ra trên bất kỳ đĩa nào của tôi). Trớ trêu thay, đó thường là phần mềm quản lý thư viện / trình xem ảnh làm thay đổi hình ảnh của bạn và đó là nơi kiểm tra hệ thống tập tin và sự dư thừa khác không thành công. Giữ danh sách tổng kiểm tra của riêng bạn và nhiều bản sao lưu trên các hệ thống tập tin / phương tiện chỉ đọc không phải là lựa chọn tồi tệ nhất khi nói đến việc bảo tồn dữ liệu kỹ thuật số.
frostschutz

1
@frostschutz - Tôi không nghĩ nó không phổ biến. Phụ thuộc vào chất lượng của các trục chính bạn đang chạy và phần cứng và phần cứng I / O. Gần đây tôi đã gặp phải một loạt các máy ảo nén trên một máy chủ linux sợ một năm trước và bây giờ sẽ không còn giải nén nữa. Tôi đã thử các tiện ích giải nén khác nhau với cùng một kết quả. IMO chỉ giải thích là bitrot. Tôi không có tổng kiểm tra để xác thực 100% không may nhưng nó rất đáng ngờ.
Timothy C. Quinn

@ TimothyC.Quinn HDD kiểm tra mọi khu vực để bạn thấy lỗi đọc trước dữ liệu xấu. Có rất nhiều cách để có được bitrot gây ra bởi phần mềm. Ví dụ: phân vùng dos mở rộng / logic và sau đó chơi với parted - đã làm điều đó. Thông tin phân vùng được lưu trữ ở mọi nơi và sửa bảng phân vùng bị hỏng không hoàn tác được. Chỉ với rất ít byte được thay đổi, nó có thể sửa được. Bạn chắc chắn có thể sửa lỗi JPEG bằng một bit lật, miễn là tệp gốc, không được chuyển đổi cũng không bị cắt bớt.
frostschutz

Câu trả lời:


4

Giải pháp chính tắc là sử dụng một hệ thống tập tin hỗ trợ kiểm tra và thực hiện sao lưu thường xuyên.

Ngoài ra, bạn cũng có thể sử dụng sơ đồ lưu trữ dự phòng (RAID) - ở lớp hệ thống tệp - để tránh mất thời gian khôi phục từ bản sao lưu, nếu có thể.

Ví dụ về các hệ thống tập tin như vậy là ZFS hoặc Btrfs .

Tính năng kiểm tra của các hệ thống tập tin như vậy được thực hiện bằng cách sử dụng hàm băm mật mã. Do đó, các lỗi bit phía dưới ngăn xếp lưu trữ được phát hiện với xác suất rất cao - do khả năng phát hiện các tham nhũng của chúng ở cùng cấp hoặc cao hơn như với các công cụ như par2.

Những hệ thống tập tin này cũng bao gồm các tính năng lưu trữ dự phòng - tương tự như cấp độ RAID. Sự khác biệt so với cách tiếp cận RAID phân lớp cổ điển là trong trường hợp phát hiện tham nhũng, hệ thống tập tin có thể chọn chân 'chính xác', tức là phía của gương RAID trả về khối với tổng kiểm tra chính xác.


2

Đây là một câu hỏi cũ hơn, nhưng vẫn có liên quan trong năm 2019.

Có, các tệp chẵn lẻ là một giải pháp khả thi cho mục đích bit

Mặc dù có những bất lợi đối với việc kiểm tra tính chẵn lẻ ở cấp độ hệ thống, nhưng cũng có một lợi ích rất lớn:

Tính di động.

Việc kiểm tra lỗi dựa trên hệ thống tập tin kỳ lạ nhất trên thế giới về mặt lý thuyết có thể giữ cho dữ liệu của bạn không có bitrot mãi mãi, nhưng bảo vệ bị khóa đối với hệ thống tập tin đó. Ngay khi các tập tin rời đi, chúng không được bảo vệ.

"quá nặng" bởi brapps được cấp phép theo CC BY-NC 2.0 (Anh ấy thực sự nên chuyển sang ZFS và một mái nhà trước khi đưa dữ liệu vào)

Hình ảnh với các tệp chẵn lẻ bên cạnh chúng có thể được chuyển sang ổ USB, được truyền qua các kết nối packlossy, được nén, sao lưu riêng lẻ sang phương tiện khác và hàng trăm thứ khác mà tôi có thể nghĩ ra khỏi đỉnh đầu.

Họ cũng có thể ngăn các thay đổi dựa trên các chương trình xấu (ví dụ: máy phân tích siêu dữ liệu vô tình viết siêu dữ liệu không chính xác)

PAR2 là một lựa chọn khả thi của tệp chẵn lẻ

Các tệp PAR2 đặc biệt có thể được sử dụng đa nền tảng và những bất lợi lớn nhất của chúng không thực sự là vấn đề trong trường hợp sử dụng để bảo vệ ảnh lớn (những PARP không hỗ trợ các thư mục con và không xử lý các tệp <1KB một cách hiệu quả).

Tuy nhiên, các tệp cải cách hành chính không phải là một giải pháp sao lưu hoàn chỉnh

Chúng vẫn cần phải là một phần của chiến lược sao lưu 3 bản sao để "chống đạn", đặc biệt là với các tệp PAR không có lịch sử thay đổi: Nếu một thay đổi được phát hiện là hợp lệ và các tệp chẵn lẻ được tạo lại, sẽ không quay lại mà không tham khảo sao lưu riêng biệt (một giải pháp sao lưu ngoài trang web với lịch sử thay đổi tích hợp sẽ là người chiến thắng ở đây).

Bước tiếp theo

Câu trả lời cho câu hỏi ban đầu của Wikipedia Có tập lệnh hay chương trình nào [tự động tạo và duy trì các tệp chẵn lẻ] không? vẫn là Không có trong năm 2019, nhưng việc tự tạo một kịch bản hoặc có một kịch bản được thực hiện là khá tầm thường. Nếu bạn đi theo con đường này, lời khuyên tốt nhất tôi có thể đưa ra là: tạo một môi trường thử nghiệm với mọi trường hợp cạnh bạn có thể nghĩ ra và chạy bất kỳ tập lệnh nào thông qua tất cả các thử nghiệm trước khi tin tưởng nó.

Và, nếu có ai đọc bài viết này không đi tuyến đường này, hãy xem xét mở nguồn nó vì lợi ích của tất cả mọi người.


1
Tôi không chắc sẽ nghĩ gì về câu trả lời của bạn: bạn đưa ra một số điểm không quá tệ (nhưng theo một cách kỳ lạ nào đó), đã nói về chủ đề tại một số điểm (hệ thống tệp, tệp PAR2) và kết thúc bằng "câu trả lời là không", bởi vì bạn đã từ chối các hệ thống tập tin kiểm tra tổng hợp? Chưa kể các chuyển đổi giữa các phần khác nhau được thực hiện một cách kỳ lạ ... Không chắc chắn nơi bạn sẽ đến với điều này.
Nghịch lý

@Paradox Điểm hợp lệ. Sau khi đọc lại một ngày sau khi tôi làm lại từ ngữ để làm rõ quan điểm và kết luận của tôi. Đánh giá cao đầu vào.
joshfindit

1
Rất vui vì tôi có thể giúp. Thật vậy, bây giờ nó dễ đọc và rõ ràng hơn nhiều và có vẻ hướng nhiều hơn vào việc trả lời câu hỏi. Nếu tôi có thể nâng cấp một chỉnh sửa, tôi chắc chắn sẽ!
Nghịch lý
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.