Câu trả lời ngắn
Không thể đảm bảo khung thời gian dài vì entropy (còn gọi là cái chết!). Dữ liệu số bị phân rã và chết, giống như bất kỳ thứ gì khác trong vũ trụ. Nhưng nó có thể bị chậm lại.
Hiện tại không có cách nào chứng minh thất bại và được chứng minh khoa học để đảm bảo hơn 30 năm lưu trữ dữ liệu lạnh. Một số dự án đang hướng tới mục tiêu đó, như dự án Rosetta Disks của bảo tàng Long Now , mặc dù chúng vẫn rất tốn kém và mật độ dữ liệu thấp (khoảng 50 MB).
Trong thời gian này, bạn có thể sử dụng các phương tiện quang có khả năng phục hồi đã được khoa học chứng minh cho việc lưu trữ lạnh như loại đĩa Blu-ray HTL như của Panasonic, hoặc DVD lưu trữ loại DVD + R như Verbatim Gold Archival, và giữ chúng trong các hộp kín trong không khí (tránh nhiệt độ cao) và ra khỏi ánh sáng.
Đồng thời GIẢM GIÁ : Tạo nhiều bản sao dữ liệu của bạn (ít nhất là 4) và tính toán băm để kiểm tra thường xuyên rằng mọi thứ đều ổn và cứ sau vài năm bạn nên viết lại dữ liệu của mình trên các đĩa mới. Ngoài ra, sử dụng nhiều mã sửa lỗi , chúng sẽ cho phép bạn sửa chữa dữ liệu bị hỏng của bạn!
Câu trả lời dài
Tại sao dữ liệu bị hỏng theo thời gian? Câu trả lời nằm trong một từ: entropy . Đây là một trong những lực lượng chính và không thể tránh khỏi của vũ trụ, khiến cho các hệ thống ngày càng ít được sắp xếp theo thời gian. Tham nhũng dữ liệu chính xác là: một rối loạn theo thứ tự bit. Nói cách khác, Vũ trụ ghét dữ liệu của bạn .
Chiến đấu với entropy giống hệt như chiến đấu với cái chết: bạn sẽ không bao giờ thành công. Nhưng, bạn có thể tìm cách để làm chậm cái chết, giống như bạn có thể làm chậm entropy. Bạn cũng có thể lừa entropy bằng cách sửa chữa các lỗi (nói cách khác: bạn không thể dừng các hỏng, nhưng bạn có thể sửa chữa sau khi chúng xảy ra nếu bạn thực hiện các biện pháp trước đó!). Giống như bất cứ điều gì về sự sống và cái chết, không có viên đạn ma thuật, cũng không có một giải pháp nào cho tất cả, và các giải pháp tốt nhất đòi hỏi bạn phải trực tiếp tham gia vào việc quản lý kỹ thuật số dữ liệu của mình. Và ngay cả khi bạn làm mọi thứ chính xác, bạn không được đảm bảo giữ an toàn cho dữ liệu của mình, bạn chỉ tối đa hóa cơ hội của mình.
Bây giờ là tin tốt: hiện có những cách khá hiệu quả để giữ dữ liệu của bạn, nếu bạn kết hợp các phương tiện lưu trữ chất lượng tốt và chiến lược lưu trữ / quản lý tốt : bạn nên thiết kế cho thất bại .
Chiến lược giám tuyển tốt là gì? Hãy nói thẳng một điều: hầu hết các thông tin bạn sẽ tìm thấy sẽ là về các bản sao lưu, không phải về lưu trữ. Vấn đề là hầu hết mọi người sẽ chuyển kiến thức của họ về các chiến lược sao lưu sang lưu trữ, và do đó, rất nhiều huyền thoại hiện đang được nghe thấy. Thật vậy, lưu trữ dữ liệu trong một vài năm (sao lưu) và lưu trữ dữ liệu trong thời gian dài nhất có thể kéo dài hàng thập kỷ ít nhất (lưu trữ) là những mục tiêu hoàn toàn khác nhau, do đó đòi hỏi các công cụ và chiến lược khác nhau.
May mắn thay, có khá nhiều kết quả nghiên cứu và khoa học, vì vậy tôi khuyên bạn nên tham khảo những bài báo khoa học đó hơn là trên các diễn đàn hoặc tạp chí. Ở đây, tôi sẽ tóm tắt một số bài đọc của tôi.
Ngoài ra, hãy cảnh giác với các tuyên bố và các nghiên cứu khoa học không độc lập , cho rằng phương tiện lưu trữ như vậy hoặc như vậy là hoàn hảo. Hãy nhớ dự án nổi tiếng của BBC Domesday: «Sách Domesday kỹ thuật số kéo dài 15 năm chứ không phải 1000» . Luôn kiểm tra kỹ các nghiên cứu với các bài báo thực sự độc lập và nếu không có, luôn cho rằng phương tiện lưu trữ không tốt cho việc lưu trữ.
Hãy làm rõ những gì bạn đang tìm kiếm (từ câu hỏi của bạn):
Lưu trữ dài hạn : bạn muốn giữ các bản sao của dữ liệu "cá nhân" hợp lý, không thể cung cấp của bạn. Lưu trữ về cơ bản khác với sao lưu , cũng được giải thích ở đây : các bản sao lưu dành cho dữ liệu kỹ thuật động thường xuyên được cập nhật và do đó cần được làm mới thành các bản sao lưu (ví dụ: HĐH, bố cục thư mục công việc, v.v.), trong khi lưu trữ là dữ liệu tĩnh bạn có thể sẽ chỉ viết một lần và chỉ đọc theo thời gian . Tài liệu lưu trữ dành cho dữ liệu nội bộ , thường là cá nhân.
Kho lạnh : bạn muốn tránh bảo trì dữ liệu lưu trữ của mình càng nhiều càng tốt. Đây là một hạn chế LỚN, vì nó có nghĩa là phương tiện phải sử dụng các thành phần và phương pháp viết ổn định trong một thời gian rất dài, không có bất kỳ thao tác nào từ phía bạn và không yêu cầu bất kỳ kết nối nào với máy tính hoặc nguồn điện.
Để dễ dàng phân tích, trước tiên chúng ta hãy nghiên cứu các giải pháp lưu trữ lạnh, và sau đó là các chiến lược lưu trữ dài hạn.
Phương tiện bảo quản lạnh
Chúng tôi đã xác định ở trên phương tiện lưu trữ lạnh tốt là gì: nó sẽ lưu giữ dữ liệu trong một thời gian dài mà không cần bất kỳ thao tác nào (đó là lý do tại sao nó được gọi là "lạnh": bạn chỉ có thể lưu trữ trong tủ và bạn không cần phải cắm vào một máy tính để duy trì dữ liệu).
Giấy có vẻ như là phương tiện lưu trữ linh hoạt nhất trên trái đất, bởi vì chúng ta thường tìm thấy bản thảo rất cũ từ thời cổ đại. Tuy nhiên, giấy bị nhược điểm lớn: đầu tiên, mật độ dữ liệu rất thấp (không thể lưu trữ hơn ~ 100 KB trên giấy, ngay cả với các ký tự nhỏ và công cụ máy tính) và nó xuống cấp theo thời gian mà không có cách nào để theo dõi nó: giấy , giống như ổ cứng, bị tham nhũng im lặng. Nhưng trong khi bạn có thể theo dõi các lỗi hỏng thầm lặng trên dữ liệu số, bạn không thể trên giấy. Ví dụ: bạn không thể đảm bảo rằng một hình ảnh sẽ giữ lại các màu giống nhau chỉ sau một thập kỷ: màu sắc sẽ xuống cấp và bạn không có cách nào để tìm thấy màu gốc là gì. Tất nhiên, bạn có thể giám tuyển hình ảnh của bạn nếu bạn là một chuyên gia phục hồi hình ảnh, nhưng điều này rất tốn thời gian, trong khi với dữ liệu kỹ thuật số, bạn có thể tự động hóa quy trình giám tuyển và phục hồi này.
Ổ cứng (HDD) được biết là có tuổi thọ trung bình từ 3 đến 8 năm: chúng không bị suy giảm theo thời gian, chúng được đảm bảo cuối cùng sẽ chết (nghĩa là không thể truy cập được). Các đường cong sau đây cho thấy xu hướng này cho tất cả các ổ cứng bị chết với tốc độ đáng kinh ngạc:
Đường cong bồn tắm cho thấy sự phát triển của tỷ lệ lỗi ổ cứng do loại lỗi (cũng có thể áp dụng cho mọi thiết bị được thiết kế):
Đường cong hiển thị tỷ lệ lỗi ổ cứng, tất cả các loại lỗi được hợp nhất:
Nguồn: Backblaze
Bạn có thể thấy rằng có 3 loại ổ cứng tương đối thất bại: loại chết nhanh (ví dụ: lỗi sản xuất, ổ cứng chất lượng kém, hỏng đầu, v.v.), loại có tốc độ chết liên tục (sản xuất tốt, chúng chết vì nhiều loại khác nhau " "lý do bình thường, đây là trường hợp của hầu hết các ổ cứng), và cuối cùng là những ổ cứng mạnh hơn một chút so với hầu hết các ổ cứng và cuối cùng sẽ chết ngay sau khi" ổ cứng bình thường "(ví dụ: ổ cứng may mắn, không được sử dụng quá nhiều, điều kiện môi trường lý tưởng, vv ..). Vì vậy, bạn được đảm bảo rằng ổ cứng của bạn sẽ chết.
Tại sao ổ cứng chết thường xuyên như vậy? Ý tôi là, dữ liệu được ghi trên một đĩa từ tính và từ trường có thể tồn tại hàng thập kỷ trước khi mất dần. Lý do chúng chết là vì phương tiện lưu trữ (đĩa từ) và phần cứng đọc (bảng điện tử + đầu quay) được ghép nối : chúng không thể tách rời, trước tiên bạn không thể trích xuất đĩa từ và đọc nó bằng đầu khác bảng điện tử (chuyển đổi dữ liệu vật lý thành kỹ thuật số) khác nhau đối với hầu hết mỗi ổ cứng (thậm chí của cùng một thương hiệu và tham chiếu, nó phụ thuộc vào nhà máy sản xuất) và cơ chế bên trong với đầu quay rất phức tạp mà ngày nay không thể để con người đặt đầu quay một cách hoàn hảo vào các đĩa từ mà không làm chết chúng.
Ngoài ra, ổ cứng được biết là sẽ khử từ theo thời gian nếu không được sử dụng (bao gồm cả SSD). Do đó, bạn không thể lưu trữ dữ liệu trên đĩa cứng, lưu trữ trong tủ quần áo và nghĩ rằng nó sẽ lưu giữ dữ liệu mà không cần kết nối điện: bạn cần cắm ổ cứng vào nguồn điện ít nhất một lần mỗi năm hoặc mỗi vài năm . Vì vậy, ổ cứng rõ ràng không phù hợp để lưu trữ lạnh.
Băng từ : chúng thường được mô tả là nhu cầu sao lưu và mở rộng để lưu trữ. Vấn đề với băng từ là chúng rất nhạy cảm: các hạt oxit từ tính có thể dễ dàng bị hư hỏng bởi ánh nắng mặt trời, nước, không khí, vết trầy xước, bị khử từ thời gian hoặc bất kỳ thiết bị điện từ nào hoặc rơi ra theo thời gian hoặc in qua . Đó là lý do tại sao chúng thường chỉ được sử dụng trong các trung tâm dữ liệu bởi các chuyên gia. Ngoài ra, chưa bao giờ được chứng minh rằng họ có thể giữ lại dữ liệu hơn một thập kỷ. Vì vậy, tại sao họ thường được khuyên để sao lưu? Bởi vì trước đây chúng rất rẻ: trước đây, chi phí sử dụng băng từ rẻ hơn từ 10 đến 100 lần so với ổ cứng và ổ cứng có xu hướng ổn định hơn rất nhiều so với bây giờ. Vì vậy, băng từ chủ yếu được khuyên dùng để sao lưu vì hiệu quả chi phí, không phải vì khả năng phục hồi, đó là điều khiến chúng ta quan tâm nhất khi lưu trữ dữ liệu.
Thẻ CompactFlash và Secure Digital (SD) được biết đến là khá mạnh mẽ và mạnh mẽ, có thể sống sót trong điều kiện thảm khốc .
Thẻ nhớ trong hầu hết các máy ảnh hầu như không thể phá hủy, được tìm thấy trên tạp chí Digital Camera Shopper. Năm định dạng thẻ nhớ sống sót được đun sôi, chà đạp, rửa và nhúng trong cà phê hoặc cola.
Tuy nhiên, như bất kỳ phương tiện dựa trên từ tính nào khác, nó dựa vào một trường điện để giữ lại dữ liệu và do đó, nếu thẻ hết nước, dữ liệu có thể bị mất hoàn toàn. Do đó, không phải là một thiết bị hoàn hảo cho việc lưu trữ lạnh (vì bạn cần thỉnh thoảng viết lại toàn bộ dữ liệu trên thẻ để làm mới điện trường), nhưng nó có thể là phương tiện tốt để sao lưu và lưu trữ ngắn hạn hoặc trung hạn.
Phương tiện quang học: Phương tiện quang học là một loại phương tiện lưu trữ dựa vào laser để đọc dữ liệu, như CD, DVD hoặc Blu-ray (BD). Đây có thể được coi là một sự tiến hóa của giấy, nhưng chúng tôi viết dữ liệu với kích thước rất nhỏ, chúng tôi cần một vật liệu chính xác và đàn hồi hơn giấy và các đĩa quang chỉ có thế. Hai ưu điểm lớn nhất của phương tiện quang là phương tiện lưu trữ được tách rời khỏi phần cứng đọc (nghĩa là, nếu đầu đọc DVD của bạn bị lỗi, bạn luôn có thể mua một cái khác để đọc đĩa của mình) và nó dựa trên laser, làm cho nó trở nên phổ biến và bằng chứng trong tương lai (nghĩa là, miễn là bạn biết cách tạo ra tia laser, bạn luôn có thể điều chỉnh nó để đọc các bit của đĩa quang bằng cách mô phỏng, giống như CAMILEON đã làm cho Dự án Domesday BBC ).
Giống như bất kỳ công nghệ nào, các lần lặp mới không chỉ cung cấp mật độ lớn hơn (phòng lưu trữ), mà còn sửa lỗi tốt hơn và khả năng phục hồi tốt hơn trước sự phân rã của môi trường (không phải luôn luôn, nhưng nói chung là đúng). Cuộc tranh luận đầu tiên về độ tin cậy của DVD là giữa DVD-R và DVD + R và ngay cả khi DVD-R vẫn còn phổ biến hiện nay, DVD + R được công nhận là đáng tin cậy và chính xác hơn . Hiện tại có các đĩa DVD cấp lưu trữ, được sản xuất dành riêng cho kho lạnh, tuyên bố rằng chúng có thể chịu được tối thiểu ~ 20 năm mà không cần bảo trì:
Verbatim Gold Archival DVD-R [...] đã được đánh giá là DVD-R đáng tin cậy nhất trong một bài kiểm tra căng thẳng dài hạn của tạp chí c't nổi tiếng của Đức (c. 16/2008, trang 116-123 ) [...] đạt được độ bền tối thiểu là 18 năm và độ bền trung bình từ 32 đến 127 năm (ở 25C, độ ẩm 50%). Không có đĩa nào khác đến gần với các giá trị này, DVD-R tốt thứ hai có độ bền tối thiểu chỉ 5 năm.
Từ LinuxTech.net .
Hơn nữa, một số công ty chuyên lưu trữ DVD rất dài hạn và tiếp thị rộng rãi chúng, như M-Disc từ Millenniata hoặc DataTresorDisc, tuyên bố rằng họ có thể giữ dữ liệu trong hơn 1000 năm và được xác minh bởi một số nghiên cứu ( không độc lập) (từ 2009) trong số những người kém khoa học .
Tất cả điều này có vẻ rất hứa hẹn! Thật không may, không có đủ các nghiên cứu khoa học độc lập để xác nhận những tuyên bố này, và một số ít có sẵn không quá nhiệt tình:
Độ ẩm (80% rh) và nhiệt độ (80 ° C) tăng tốc độ lão hóa trên một số DVD trong hơn 2000 giờ (khoảng 83 ngày) thử nghiệm với việc kiểm tra thường xuyên khả năng đọc dữ liệu:
Dịch từ tổ chức tiếng Pháp để lưu trữ dữ liệu kỹ thuật số (Archives de France), nghiên cứu từ năm 2012.
Biểu đồ đầu tiên hiển thị DVD với sự phát triển xuống cấp chậm. DVD thứ hai với các đường cong xuống cấp nhanh chóng. Và cái thứ ba dành cho các DVD "rất dài hạn" đặc biệt như M-Disc và DataTresorDisc. Như chúng ta có thể thấy, hiệu suất của chúng không hoàn toàn phù hợp với các yêu cầu, thấp hơn hoặc ngang bằng với các DVD tiêu chuẩn, không lưu trữ!
Tuy nhiên, các đĩa quang vô cơ như M-Disc và DataTresorDisc có một lợi thế: chúng khá nhạy cảm với sự suy giảm ánh sáng:
Lão hóa nhanh bằng cách sử dụng ánh sáng (750 W / m2) trong 240 giờ:
Đây là những kết quả tuyệt vời, nhưng một DVD cấp lưu trữ như Verbatim Gold Archival cũng đạt được hiệu suất tương tự, và hơn nữa, ánh sáng là thông số có thể kiểm soát nhất đối với một đối tượng: khá dễ dàng để đặt DVD vào hộp kín hoặc tủ quần áo, và do đó loại bỏ bất kỳ tác động có thể có của ánh sáng. Sẽ hữu ích hơn nhiều khi có được một đĩa DVD rất bền với nhiệt độ và độ ẩm hơn ánh sáng.
Nhóm nghiên cứu này cũng đã nghiên cứu thị trường Blu-ray để xem liệu sẽ có bất kỳ thương hiệu nào có phương tiện tốt để lưu trữ lạnh lâu dài hay không. Đây là phát hiện của họ:
Độ ẩm và nhiệt độ tăng tốc độ lão hóa trên một số nhãn hiệu Blu-ray, theo cùng thông số như đối với DVD:
Ánh sáng tăng tốc lão hóa trên một số thương hiệu BluRays, cùng thông số:
Dịch từ nghiên cứu này của Archives de France, 2012.
Hai tóm tắt của tất cả các phát hiện (bằng tiếng Pháp) ở đây và ở đây .
Tốt, đĩa Blu-ray tốt nhất (từ Panasonic) hoạt động tương tự như đĩa DVD lưu trữ tốt nhất trong kiểm tra độ ẩm + nhiệt độ, trong khi hầu như không thể chịu được ánh sáng! Và đĩa Blu-ray này thậm chí không phải là lớp lưu trữ. Hơn nữa, các đĩa Blu-ray sử dụng mã sửa lỗi nâng cao hơn so với DVD (bản thân chúng sử dụng phiên bản nâng cao tương đối với CD), giúp giảm thiểu rủi ro mất dữ liệu. Vì vậy, có vẻ như một số đĩa BluRay có thể là một lựa chọn rất tốt cho việc lưu trữ lạnh.
Và thực tế, một số công ty đang bắt đầu làm việc ở cấp lưu trữ, đĩa Blu-ray lưu trữ mật độ cao như Panasonic và Sony, thông báo rằng họ sẽ có thể cung cấp dung lượng lưu trữ 300 GB đến 1TB với tuổi thọ trung bình là 50 năm. Ngoài ra, các công ty lớn đang chuyển hướng sang phương tiện quang học để lưu trữ lạnh (vì nó tiêu tốn ít tài nguyên hơn vì bạn có thể lưu trữ lạnh mà không cần cung cấp điện), chẳng hạn như Facebook đã phát triển một hệ thống robot để sử dụng đĩa Blu-ray là "lạnh lưu trữ " cho dữ liệu hệ thống của họ hiếm khi truy cập.
Sáng kiến lưu trữ của Long Now: Có những dẫn dắt thú vị khác như dự án Rosetta Disc của bảo tàng Long Now , đó là dự án viết các trang được thu nhỏ bằng kính hiển vi của Genesis bằng mọi ngôn ngữ trên trái đất mà Genesis đã dịch sang. Đây là một dự án tuyệt vời, là dự án đầu tiên cung cấp phương tiện cho phép lưu trữ 50 MB cho kho lạnh thực sự rất dài hạn (vì nó được viết bằng carbon) và với quyền truy cập trong tương lai vì bạn chỉ cần kính lúp để truy cập dữ liệu (không có thông số kỹ thuật định dạng kỳ lạ cũng như rắc rối công nghệ để xử lý như chùm tia tím của Blu-ray, chỉ cần một kính lúp!). Tuy nhiên, những thứ này vẫn được làm thủ công và do đó ước tính có giá khoảng 20 nghìn đô la, một chút quá nhiều cho một kế hoạch lưu trữ cá nhân mà tôi đoán.
Giải pháp dựa trên Internet: Tuy nhiên, một phương tiện khác để lưu trữ lạnh dữ liệu của bạn là qua mạng. Tuy nhiên, các giải pháp sao lưu đám mây không phù hợp, vì mối quan tâm chính hơn là các công ty lưu trữ đám mây có thể không tồn tại miễn là bạn muốn giữ dữ liệu của mình. Các lý do khác bao gồm thực tế là sao lưu chậm khủng khiếp (vì nó chuyển qua internet) và hầu hết các nhà cung cấp yêu cầu các tệp cũng tồn tại trên hệ thống của bạn để giữ chúng trực tuyến. Ví dụ: cả CrashPlan và Backblaze sẽ xóa vĩnh viễn các tệp mà ít nhất một lần nhìn thấy trên máy tính của bạn trong 30 ngày qua, vì vậy nếu bạn muốn tải lên dữ liệu sao lưu mà bạn chỉ lưu trữ trên ổ cứng ngoài, bạn sẽ phải cắm USB HDD ít nhất một lần mỗi tháng và đồng bộ hóa với đám mây của bạn để đặt lại bộ đếm ngược. Tuy nhiên, một số dịch vụ đám mây cung cấp để giữ các tệp của bạn vô thời hạn (miễn là bạn trả tiền tất nhiên) mà không cần đếm ngược, chẳng hạn như SpiderOak. Vì vậy, hãy cẩn thận với các điều kiện và cách sử dụng giải pháp sao lưu dựa trên đám mây bạn chọn.
Một giải pháp thay thế cho các nhà cung cấp sao lưu đám mây là thuê máy chủ riêng của bạn trực tuyến và nếu có thể, hãy chọn một máy chủ tự động sao lưu / sao lưu dữ liệu của bạn trong trường hợp có lỗi phần cứng (một vài người thậm chí còn đảm bảo bạn chống lại dữ liệu bị mất trong hợp đồng của họ , nhưng tất nhiên nó đắt hơn). Đây là một giải pháp tuyệt vời, thứ nhất vì bạn vẫn sở hữu dữ liệu của mình và thứ hai là vì bạn sẽ không phải quản lý các lỗi phần cứng, đây là trách nhiệm của máy chủ lưu trữ của bạn. Và nếu một ngày nào đó máy chủ của bạn ngừng hoạt động, bạn vẫn có thể lấy lại dữ liệu của mình (chọn một máy chủ nghiêm túc để họ không tắt máy trong đêm mà thông báo cho bạn trước, có thể bạn có thể yêu cầu đưa nó vào hợp đồng), và cải tạo ở nơi khác.
Nếu bạn không muốn gặp rắc rối khi thiết lập máy chủ trực tuyến riêng của mình và nếu bạn có đủ khả năng thì Amazon cung cấp dịch vụ lưu trữ dữ liệu mới, được gọi là Glacier . Mục đích chính xác là để lưu trữ dữ liệu của bạn lâu dài: do đó, sẽ tốn rất nhiều chi phí để lưu trữ dữ liệu trên Glacier, nhưng chi phí thậm chí còn nhiều hơn để lấy lại dữ liệu này, vì dịch vụ này được thực hiện để lưu trữ dữ liệu ngoài tầm với , không giữ dữ liệu mà bạn muốn thường xuyên truy cập. Điều này có nghĩa là dịch vụ này báo giá để ghi dữ liệu, nhưng cũng để đọc chúng. Dịch vụ này có chi phí rất lớn, nhưng nó có thể là một thỏa thuận tốt cho một số dữ liệu hợp lý nhất của bạn (ví dụ: nếu bạn có một vài tệp văn bản hoặc hình ảnh RẤT hợp lý, vì loại dữ liệu này thường có kích thước nhỏ, nó sẽ không tốn nhiều tiền để lưu trữ trong Glacier).
Thiếu sót của kho lạnh : Tuy nhiên, có một lỗ hổng lớn trong bất kỳ phương tiện lưu trữ lạnh nào: không có kiểm tra tính toàn vẹn, vì phương tiện lưu trữ lạnh CANNOT tự động kiểm tra tính toàn vẹn của dữ liệu (họ chỉ có thể thực hiện các sơ đồ sửa lỗi để "chữa lành" một chút thiệt hại sau khi tham nhũng xảy ra, nhưng không thể ngăn chặn cũng như tự động quản lý!) bởi vì, ngược lại với máy tính, không có đơn vị xử lý nào để tính toán / ghi nhật ký / kiểm tra và sửa hệ thống tệp. Trong khi với một máy tính và nhiều đơn vị lưu trữ, bạn có thể tự động kiểm tra tính toàn vẹn của tài liệu lưu trữ của bạn và tự động phản chiếu lên đơn vị khác nếu cần nếu xảy ra sự cố trong kho lưu trữ dữ liệu (miễn là bạn có nhiều bản sao của cùng một kho lưu trữ).
Lưu trữ dài hạn
Ngay cả với các công nghệ tốt nhất hiện có, dữ liệu kỹ thuật số chỉ có thể được lưu trữ lạnh trong một vài thập kỷ (khoảng 20 năm). Do đó, về lâu dài, bạn không thể chỉ dựa vào kho lạnh: bạn cần thiết lập một phương pháp cho quy trình lưu trữ dữ liệu của mình để đảm bảo rằng dữ liệu của bạn có thể được truy xuất trong tương lai (ngay cả khi có thay đổi công nghệ) và bạn giảm thiểu rủi ro mất dữ liệu của bạn. Nói cách khác, bạn cần trở thành người quản lý kỹ thuật số dữ liệu của mình, sửa chữa các lỗi khi chúng xảy ra và tạo lại các bản sao mới khi cần.
Không có quy tắc rõ ràng nào, nhưng đây là một vài chiến lược quản lý đã được thiết lập và đặc biệt là một công cụ ma thuật sẽ giúp công việc của bạn dễ dàng hơn:
- Nguyên tắc dự phòng / nhân rộng : Dự phòng là công cụ duy nhất có thể hoàn nguyên các tác động của entropy , đây là một nguyên tắc dựa trên lý thuyết thông tin. Để giữ dữ liệu, bạn cần sao chép dữ liệu này. Mã lỗi chính xác là một ứng dụng tự động của nguyên tắc dự phòng. Tuy nhiên, bạn cũng cần đảm bảo rằng dữ liệu của bạn là dự phòng: nhiều bản sao của cùng một dữ liệu trên các đĩa khác nhau, nhiều bản sao trên các phương tiện khác nhau (để nếu một phương tiện không thành công do sự cố nội tại, có rất ít khả năng các bản khác trên các phương tiện khác nhau cũng sẽ thất bại cùng một lúc), v.v. , bạn phải luôn có ít nhất 3 bản sao dữ liệu của mình, còn được gọi là dự phòng 3 mô-đun trong kỹ thuật, để nếu các bản sao của bạn bị hỏng, bạn có thể bỏ phiếu đa số đơn giản để sửa chữa các tệp của mình từ 3 bản sao. Luôn nhớ lời khuyên la bàn của thủy thủ:
Việc mang hai la bàn là vô ích, bởi vì nếu một sai, bạn không bao giờ có thể biết cái nào đúng, hoặc nếu cả hai đều sai. Luôn lấy một la bàn, hoặc nhiều hơn ba.
Lỗi sửa mã : đây là công cụ kỳ diệu sẽ giúp cuộc sống của bạn dễ dàng hơn và dữ liệu của bạn an toàn hơn. Mã sửa lỗi (ECC) là một cấu trúc toán học sẽ tạo ra dữ liệu có thể được sử dụng để sửa chữa dữ liệu của bạn. Điều này hiệu quả hơn, vì ECC có thể sửa chữa nhiều dữ liệu của bạn hơn bằng cách sử dụng ít dung lượng lưu trữ hơn so với sao chép đơn giản (nghĩa là tạo nhiều bản sao tệp của bạn) và thậm chí chúng có thể được sử dụng để kiểm tra xem tệp của bạn có bất kỳ tham nhũng, và thậm chí xác định vị trí của những tham nhũng đó. Trên thực tế, đây chính xác là một ứng dụng của nguyên tắc dự phòng, nhưng theo một cách thông minh hơn là nhân rộng. Kỹ thuật này được sử dụng rộng rãi trong mọi giao tiếp tầm xa hiện nay, chẳng hạn như 4G, WiMax và thậm chí cả truyền thông không gian của NASA. Thật không may, mặc dù ECC có mặt khắp nơi trong viễn thông, nhưng chúng không được sửa chữa tập tin, có thể vì nó hơi phức tạp. Tuy nhiên, một số phần mềm có sẵn, chẳng hạn như PAR2 nổi tiếng (nhưng hiện đã cũ), DVD Disaster (cung cấp thêm mã sửa lỗi trên đĩa quang) và pyFileFixity (mà tôi phát triển một phần để khắc phục các hạn chế và sự cố PAR2). Ngoài ra còn có các hệ thống tệp tùy chọn triển khai Reed-Solomon như ZFS cho Linux hoặc ReFS cho Windows, về mặt kỹ thuật là sự khái quát hóa của RAID5.
Kiểm tra tính toàn vẹn của các tệp của bạn thường xuyên: Băm các tệp của bạn và kiểm tra chúng theo thời gian (nghĩa là mỗi năm một lần, nhưng nó phụ thuộc vào phương tiện lưu trữ và điều kiện môi trường). Khi bạn thấy rằng các tệp của mình bị hỏng, đã đến lúc sửa chữa bằng ECC mà bạn đã tạo nếu bạn đã làm như vậy và / hoặc để tạo một bản sao mới của dữ liệu của bạn trên phương tiện lưu trữ mới. Kiểm tra dữ liệu, sửa chữa tham nhũng và tạo các bản sao mới là một chu trình giám tuyển rất tốt sẽ đảm bảo dữ liệu của bạn được an toàn. Kiểm tra cụ thể là rất quan trọng vì các bản sao tệp của bạn có thể bị hỏng âm thầm và nếu sau đó bạn sao chép các bản sao đã bị giả mạo, bạn sẽ kết thúc với các tệp bị hỏng hoàn toàn. Điều này thậm chí còn quan trọng hơn với các phương tiện lưu trữ lạnh, chẳng hạn như đĩa quang, CANNOT tự động kiểm tra tính toàn vẹn của dữ liệu (họ đã triển khai ECC để chữa lành một chút, nhưng họ không thể tự động kiểm tra hoặc tạo bản sao mới, đó là công việc của bạn!). Để theo dõi các thay đổi của tệp, bạn có thể sử dụng tập lệnh rfigc.py củapyFileFixity hoặc các công cụ UNIX khác như md5deep . Bạn cũng có thể kiểm tra trạng thái sức khỏe của một số phương tiện lưu trữ như ổ cứng bằng các công cụ như Hard Drive Sentinel hoặc smartmontools mã nguồn mở .
Lưu trữ phương tiện lưu trữ của bạn trên các địa điểm khác nhau (có ít nhất một bản sao bên ngoài ngôi nhà của bạn!) Để tránh các sự kiện thảm khốc trong đời thực như lũ lụt hoặc hỏa hoạn. Ví dụ: một đĩa quang trong công việc của bạn hoặc bản sao lưu dựa trên đám mây có thể là một ý tưởng tốt để thực hiện yêu cầu này (ngay cả khi các nhà cung cấp đám mây có thể tắt bất cứ lúc nào, miễn là bạn có các bản sao khác, bạn sẽ an toàn , các nhà cung cấp đám mây sẽ chỉ phục vụ như một kho lưu trữ ngoại vi trong trường hợp khẩn cấp).
Lưu trữ trong các thùng chứa cụ thể với các thông số môi trường được kiểm soát : đối với môi trường quang học, lưu trữ tránh ánh sáng và trong hộp kín nước để tránh độ ẩm. Đối với ổ đĩa cứng và thẻ sd, lưu trữ trong tay áo chống từ để tránh điện dư để làm xáo trộn ổ đĩa. Bạn cũng có thể bảo quản trong túi / hộp kín khí và kín nước và bảo quản trong tủ đông: nhiệt độ chậm sẽ làm chậm entropy và bạn có thể kéo dài khá nhiều thời gian sử dụng của bất kỳ phương tiện lưu trữ nào như thế (chỉ cần đảm bảo rằng nước đã thắng Không vào được bên trong, nếu không phương tiện của bạn sẽ chết nhanh chóng).
Sử dụng phần cứng chất lượng tốt và kiểm tra chúng trước (ví dụ: khi bạn mua thẻ SD, hãy kiểm tra toàn bộ thẻ bằng phần mềm như HDD Scan để kiểm tra xem mọi thứ có ổn không trước khi ghi dữ liệu của bạn). Điều này đặc biệt quan trọng đối với các ổ đĩa quang, vì chất lượng của chúng có thể thay đổi đáng kể chất lượng của các đĩa bị cháy của bạn, như được chứng minh bởi nghiên cứu của Archives de France (một ổ ghi DVD xấu sẽ tạo ra DVD ít hơn rất nhiều).
Chọn cẩn thận các định dạng tệp của bạn: không phải tất cả các định dạng tệp đều có khả năng chống lại tham nhũng, một số thậm chí còn yếu rõ ràng. Ví dụ: hình ảnh .jpg có thể bị hỏng hoàn toàn và không thể đọc được bằng cách giả mạo chỉ một hoặc hai byte. Tương tự cho lưu trữ 7zip. Điều này là vô lý, vì vậy hãy cẩn thận về định dạng tệp của các tệp bạn lưu trữ. Theo nguyên tắc thông thường, văn bản rõ ràng đơn giản là tốt nhất, nhưng nếu bạn cần nén, hãy sử dụng zip không rắn và đối với hình ảnh, hãy sử dụng JPEG2 (chưa phải là nguồn mở ...). Thêm thông tin và đánh giá của các giám tuyển kỹ thuật số chuyên nghiệp ở đây , đây và đây .
Lưu trữ cùng với dữ liệu của bạn lưu trữ mọi phần mềm và thông số kỹ thuật cần thiết để đọc dữ liệu. Hãy nhớ rằng các thông số kỹ thuật thay đổi nhanh chóng và do đó trong tương lai dữ liệu của bạn có thể không thể đọc được nữa, ngay cả khi bạn có thể truy cập tệp. Vì vậy, bạn nên thích các định dạng và phần mềm nguồn mở và lưu trữ mã nguồn của chương trình dọc theo dữ liệu của bạn để bạn luôn có thể điều chỉnh chương trình từ mã nguồn để khởi chạy từ HĐH hoặc máy tính mới.
Rất nhiều phương pháp và cách tiếp cận khác có sẵn ở đây , ở đây và trong các phần khác nhau của Internet.
Phần kết luận
Tôi khuyên bạn nên sử dụng những gì bạn có thể có, nhưng luôn tôn trọng nguyên tắc dự phòng (tạo 4 bản sao!) Và luôn kiểm tra tính toàn vẹn thường xuyên (vì vậy bạn cần tạo trước cơ sở dữ liệu băm MD5 / SHA1) và tạo mới bản sao trong trường hợp tham nhũng. Nếu bạn làm điều đó, về mặt kỹ thuật bạn có thể giữ dữ liệu của mình miễn là bạn muốn bất cứ phương tiện lưu trữ nào của bạn. Thời gian giữa mỗi lần kiểm tra phụ thuộc vào độ tin cậy của phương tiện lưu trữ của bạn: nếu đó là đĩa mềm, hãy kiểm tra 2 tháng một lần, nếu đó là HTL Blu-ray, hãy kiểm tra 2/3 năm một lần.
Bây giờ trong tối ưu, tôi khuyên bạn nên lưu trữ lạnh để sử dụng đĩa HTL Blu-ray hoặc đĩa DVD cấp lưu trữ được lưu trữ trong các hộp đục nước và được lưu trữ ở nơi mới. Ngoài ra, bạn có thể sử dụng thẻ SD và các nhà cung cấp dựa trên đám mây như SpiderOak để lưu trữ các bản sao dữ liệu dư thừa hoặc thậm chí cả ổ cứng nếu bạn có thể truy cập nhiều hơn.
Sử dụng nhiều mã sửa lỗi , chúng sẽ tiết kiệm ngày của bạn. Ngoài ra, bạn có thể tạo nhiều bản sao của các tệp ECC này (nhưng nhiều bản sao dữ liệu của bạn quan trọng hơn nhiều bản sao của ECC vì các tệp ECC có thể tự sửa chữa!).
Tất cả các chiến lược này đều có thể được thực hiện bằng cách sử dụng bộ công cụ tôi đang phát triển (nguồn mở): pyFileFixity . Công cụ này thực tế đã được bắt đầu bởi cuộc thảo luận này, sau khi nhận thấy rằng không có công cụ miễn phí nào để quản lý hoàn toàn tính cố định của tệp. Ngoài ra, vui lòng tham khảo readme và wiki của dự án để biết thêm thông tin về tính cố định tệp và giám tuyển kỹ thuật số.
Về lưu ý cuối cùng, tôi thực sự hy vọng rằng sẽ có thêm R & D cho vấn đề này. Đây là một vấn đề lớn đối với xã hội hiện tại của chúng ta, ngày càng có nhiều dữ liệu được số hóa, nhưng không có bất kỳ đảm bảo nào rằng khối thông tin này sẽ tồn tại hơn một vài năm. Điều đó khá phiền muộn, và tôi thực sự nghĩ rằng vấn đề này nên được đặt ra nhiều hơn ở phía trước, để điều này trở thành một điểm tiếp thị cho các nhà xây dựng và các công ty để tạo ra các thiết bị lưu trữ có thể tồn tại cho các thế hệ tương lai.
/ EDIT: đọc dưới đây cho một thói quen giám tuyển thực tế .