Tôi có một phiên bản EC2 đang chạy một máy chủ web lưu trữ các tệp đã tải lên của người dùng vào S3. Các tập tin được ghi một lần và không bao giờ thay đổi, nhưng thỉnh thoảng được người dùng truy xuất. Chúng tôi có thể sẽ tích lũy khoảng 200-500GB dữ liệu mỗi năm. Chúng tôi muốn đảm bảo dữ liệu này an toàn, đặc biệt là từ việc xóa ngẫu nhiên và muốn có thể khôi phục các tệp đã bị xóa bất kể lý do.
Tôi đã đọc về tính năng tạo phiên bản cho các thùng S3, nhưng dường như tôi không thể tìm thấy liệu có thể phục hồi cho các tệp không có lịch sử sửa đổi hay không. Xem tài liệu AWS tại đây về phiên bản:
http://docs.aws.amazon.com/AmazonS3/latest/dev/ObjectVersioning.html
Trong các ví dụ đó, họ không hiển thị kịch bản nơi dữ liệu được tải lên, nhưng không bao giờ được sửa đổi và sau đó bị xóa. Các tập tin bị xóa trong kịch bản này có thể phục hồi?
Sau đó, chúng tôi nghĩ rằng chúng tôi có thể chỉ sao lưu các tệp S3 vào Glacier bằng cách sử dụng quản lý vòng đời đối tượng:
http://docs.aws.amazon.com/AmazonS3/latest/dev/object-lifecycle-mgmt.html
Nhưng, có vẻ như điều này sẽ không hoạt động đối với chúng tôi, vì đối tượng tệp không được sao chép sang Glacier mà được chuyển sang Glacier (chính xác hơn có vẻ như đó là một thuộc tính đối tượng đã được thay đổi, nhưng dù sao thì ...).
Vì vậy, dường như không có cách trực tiếp để sao lưu dữ liệu S3 và việc truyền dữ liệu từ S3 sang máy chủ cục bộ có thể tốn thời gian và có thể phải chịu chi phí chuyển đáng kể theo thời gian.
Cuối cùng, chúng tôi nghĩ rằng chúng tôi sẽ tạo một nhóm mới mỗi tháng để phục vụ như một bản sao lưu đầy đủ hàng tháng và sao chép dữ liệu của nhóm ban đầu sang ngày mới vào ngày 1. Sau đó, sử dụng một cái gì đó như trùng lặp ( http: // d repeatity.nongnu.org/ ) chúng tôi sẽ đồng bộ hóa thùng dự phòng mỗi đêm. Vào cuối tháng, chúng tôi sẽ đưa nội dung của nhóm sao lưu vào bộ lưu trữ Glacier và tạo một nhóm sao lưu mới bằng cách sử dụng một bản sao mới, hiện tại của nhóm ban đầu ... và lặp lại quy trình này. Điều này có vẻ như sẽ hoạt động và giảm thiểu chi phí lưu trữ / chuyển giao, nhưng tôi không chắc liệu sự trùng lặp có cho phép chuyển trực tiếp từ xô sang xô mà không đưa dữ liệu xuống máy khách kiểm soát trước hay không.
Vì vậy, tôi đoán có một vài câu hỏi ở đây. Đầu tiên, phiên bản S3 có cho phép khôi phục các tệp không bao giờ được sửa đổi không? Có cách nào để "sao chép" các tệp từ S3 sang Glacier mà tôi đã bỏ lỡ không? Có thể sao chép trực tiếp hoặc bất kỳ công cụ chuyển tập tin nào khác giữa các thùng S3 để tránh chi phí chuyển nhượng không? Cuối cùng, tôi có bỏ qua cách tiếp cận để sao lưu dữ liệu S3 không?
Cảm ơn trước cho bất kỳ cái nhìn sâu sắc mà bạn có thể cung cấp!
Cập nhật
Amazon gần đây đã thông báo rằng phiên bản hiện hoạt động với các quy tắc vòng đời