Có cần phải sao lưu dữ liệu trên Amazon S3 không?


16

Tôi đang lưu trữ 200 GB hình ảnh sản phẩm tại S3 (đây là máy chủ lưu trữ tệp chính của tôi).

Tôi có cần sao lưu dữ liệu đó lên một nơi nào khác không, hay S3 có an toàn không?

Tôi đã thử nghiệm gắn thùng S3 vào phiên bản EC2 và sau đó tạo bản sao lưu rsync hàng đêm. Vấn đề là có khoảng 3 triệu tệp, vì vậy phải mất một thời gian để tạo các nhu cầu rsync khác nhau. Việc sao lưu thực sự mất khoảng 3 ngày để hoàn thành.

Bất kỳ ý tưởng làm thế nào để làm điều này tốt hơn? (nếu nó thậm chí cần thiết?)

Câu trả lời:


5

Tôi đã nghiên cứu về điều này, đủ buồn cười.

Sao lưu của bạn vào S3 có thể thất bại tùy thuộc vào khu vực của bạn vì tính nhất quán cuối cùng; cảnh báo cơ bản là nếu bạn làm điều này đủ, đôi khi bạn sẽ gặp lỗi khi mở hoặc tìm tệp vì phép thuật hệ thống tệp trong nền tảng của Amazon đồng bộ hóa giữa các máy chủ, vì vậy các bản sao lưu của bạn có thể không đáng tin cậy.

Về việc bạn có cần lưu chúng theo cách khác hay không, điều này phụ thuộc vào quản lý rủi ro của bạn. Bạn có tin tưởng Amazon giữ dữ liệu của bạn không?

Có thể họ có thể mất thứ gì đó hoặc có lỗi lớn hơn trong hệ thống lưu trữ của họ; họ chắc chắn có những điều khoản trong hợp đồng quy định rằng nếu họ mất dữ liệu của bạn thì đó là vấn đề của bạn . Không phải của họ. Ngoài ra, khi thấy dữ liệu của bạn được lưu trữ ở một nơi khác, bạn không biết họ sẽ làm gì với dữ liệu đó; thực thi pháp luật muốn dữ liệu của bạn? Bạn thậm chí có thể không biết người khác truy cập nó.

Bạn có tin tưởng nó không? Nếu dữ liệu không phải là chìa khóa cho doanh nghiệp của bạn và bạn sẵn sàng chấp nhận rủi ro này, thì không cần phải tải xuống dữ liệu ngoài cơ sở. Nếu bạn không sẵn sàng mạo hiểm rằng dữ liệu của bạn sẽ an toàn trong các máy chủ lưu trữ của Amazon ngoài đó, bạn nên sắp xếp để định kỳ chuyển dữ liệu đó sang bộ nhớ của riêng bạn.

Nói cách khác, tôi không nghĩ rằng có một câu trả lời thẳng cho vấn đề này vì nó phụ thuộc vào khả năng chấp nhận rủi ro và nhu cầu kinh doanh của bạn. Nhiều người sẽ không hoàn toàn tin tưởng vào thu nhập của họ chỉ bằng cách lưu trữ với đám mây, cá nhân tôi cảm thấy hơi cảnh giác với điều đó ...

Để làm điều này tốt hơn, trong các cuộc thảo luận và nghiên cứu, một cách tiếp cận khác cần xem xét là tạo một khối EBS đủ lớn để lưu trữ dữ liệu, gắn nó vào thể hiện EC2, lưu dữ liệu của bạn ở đó, sau đó bạn có thể ngắt âm lượng và lưu dữ liệu đó vào S3 . Tôi đang ở giữa nghiên cứu liệu điều này sẽ được thực hiện như là lưu tệp âm lượng vào S3 hoặc nội dung ... nhưng sau đó bạn có thể xóa phiên bản EBS khi thực hiện để tiết kiệm chi phí lưu trữ.

EDIT Tôi thấy khi đọc lại rằng bạn đang lưu TỪ S3 vào ví dụ EC2 chứ không phải ngược lại (mặc dù tôi không biết liệu vấn đề nhất quán cuối cùng có còn gây ra sự cố ở đó không). Bạn đang cố lưu dữ liệu vào một bản sao EC2 làm bản sao lưu? Tôi nghĩ rằng chi phí khôn ngoan đó không phải là một chiến thuật hợp lý; Có thể rẻ hơn để sao lưu mọi thứ vào ổ đĩa cục bộ khi bạn tính đến việc lưu trữ lâu dài loại dữ liệu đó, cùng với thời gian VM. Với chi phí ổ đĩa, bạn có thể sao chép dữ liệu xuống đĩa cục bộ để sao lưu.

Tôi vẫn sẽ giữ các cảnh báo về việc tin tưởng Amazon và lưu trữ của họ. Nếu bạn muốn giữ mọi thứ trong Amazon S3 nhưng có nhiều dư thừa hơn, hãy nhân đôi các thùng S3 của bạn qua các khu vực và nếu chúng bị mất điện ảnh hưởng đến một khu vực thì không nên loại bỏ tất cả chúng. Bạn sẽ hy vọng. Bất cứ điều gì là có thể mặc dù.

Nó phụ thuộc vào mức độ bạn đánh giá cao dữ liệu của bạn, số tiền bạn sẵn sàng trả cho dữ liệu đó và mức độ rủi ro bạn muốn chịu đựng.


Cảm ơn câu trả lời của bạn, nhưng tôi nghĩ rằng bạn đã hiểu lầm. Tôi đang sử dụng S3 làm bộ lưu trữ chính của mình (Tôi đang lưu trữ các tệp trực tiếp từ đó dưới dạng cdn). Vì vậy, câu hỏi của tôi là liệu các tệp có an toàn ở đó không, hoặc nếu tôi cần tạo một bản sao lưu của chúng bằng cách nào đó (có thể là một khóa S3 khác hoặc ví dụ EC2)?
Chrille

Đã thêm vào một chỉnh sửa.
Bart Silverstrim

Hmm, yeah có lẽ một bản sao lưu cục bộ sẽ an toàn hơn. Bạn có biết nếu S3 và EC2 chia sẻ cùng một phần cứng - nếu thất bại, cả bản sao lưu S3 và EC2 của tôi sẽ biến mất? Hai lý do của tôi để tạo bản sao lưu vào EC2 là: (1) Không có phí chuyển giữa EC2 và S3. Sẽ tốn khá nhiều chi phí để sao chép 200 GB cục bộ mỗi tuần hoặc lâu hơn. (2) trong trường hợp xảy ra thảm họa tại S3, tôi hoàn toàn có thể chuyển đổi nhanh phiên bản EC2 của mình để chia sẻ hình ảnh từ bản sao lưu. Nhưng tôi hiểu rằng một bản sao lưu cục bộ cũng có nhiều lợi thế ...
Chrille

Tôi thực sự không biết làm thế nào phần cứng của Amazon được thiết lập trong nền; ngay cả khi tôi biết, không có gì đảm bảo họ sẽ không thay đổi nó trong tương lai.
Bart Silverstrim

4

Tôi đã sử dụng s3cmd s3cmd sync để làm điều này. Nó hơi giống rsync trong hoạt động của nó và có thể đẩy và kéo toàn bộ thư mục giữa S3 và một hệ thống linux khác mà bạn chọn.

Tôi không thấy bất kỳ lý do nào khiến bạn không s3cmd syncthể chạy phiên bản EC2 hoặc thậm chí máy trạm dành cho nhà phát triển của riêng bạn (hoặc máy chủ lưu trữ).

Bạn có thể muốn thiết lập một cá thể VPC và sau đó bạn có thể gán một nút nhỏ bên trong VPC của mình vai trò của máy chủ dự phòng và cung cấp cho cả IP trong mạng của Amazon, cũng như bên trong mạng con cục bộ của bạn.


Mối quan tâm của tôi, mà anh ấy phải quyết định bằng tài chính của mình, là chi phí duy trì một thể hiện EC2 và không gian EBS để lưu trữ loại dữ liệu đó so với việc lưu nó vào ổ cứng ngoài cục bộ chỉ vài trăm đô la. Nếu tiền cho phép phí chuyển khoản, tôi chỉ cần tải nó xuống ổ đĩa cục bộ và giữ đồng bộ hóa định kỳ (đó cũng là một phần của giải pháp của bạn.)
Bart Silverstrim

EC2 của Amazon không rẻ bằng bất kỳ thước đo nào của thuật ngữ, đặc biệt nếu bạn muốn làm cấp độ doanh nghiệp hoặc bất kỳ thứ gì khác ngoài những thứ đơn giản. Nếu bạn không thích điều đó, thì có lẽ nó không dành cho bạn.
Tom O'Connor

@BartSilverstrim: không phải là chuyển khoản trong AWS miễn phí? Nếu vậy, tôi có thể rẻ hơn để sao chép sang EC2 so với cục bộ. Dù sao tôi cũng có một phiên bản EC2 hoạt động 24/7, vì vậy đó chỉ là không gian EBS sẽ có giá.
Chrille

2

Lời khuyên của tôi là dữ liệu của bạn là trách nhiệm của bạn, không phải của Amazon. Nếu mất dữ liệu không phải là một vấn đề lớn, thì đừng tự sao lưu. Nếu có, hãy lấy bản sao lưu của riêng bạn (ít nhất) một JBOD giá rẻ (và xác minh thường xuyên) như tôi làm.

Bạn sẽ tìm hiểu xem Amazon sẵn sàng nhận bao nhiêu trách nhiệm cho dữ liệu của bạn, vào ngày họ mất dữ liệu.


0

Nếu bạn có đủ khả năng (như tôi làm điều này) thì có tất cả dữ liệu của tôi được lưu trữ trên máy chủ của tôi, nhưng lấy nó từ Amazon s3. Vì vậy, nếu Amazon ngừng hoạt động vì bất kỳ lý do gì (chạm gỗ), tôi chỉ có thể lấy tất cả dữ liệu của mình ngay lập tức từ máy chủ của mình. Từ máy chủ của tôi, tôi tạo bản sao lưu hàng tháng vào ổ đĩa cục bộ của mình. Vì trang web của tôi có hơn 2TB trong trang web.


Tôi thấy một chút không rõ ràng đề nghị của bạn là gì. Máy chủ của bạn là gì và nó nằm ở đâu?
kasperd

0

Mặc dù đây là một chủ đề cũ, nhưng đó là điều đầu tiên xuất hiện khi sao lưu Googling S3, vì vậy tôi nghĩ rằng tôi đã thêm vào nó ...

Tự mình thực hiện một số nghiên cứu về vấn đề này, tôi phát hiện ra Rclone https://rclone.org/ - đó là phần mềm rsync-ish được thiết kế để sao chép giữa các dịch vụ lưu trữ tệp trên đám mây và hỗ trợ hầu hết chúng. Không có liên kết và tôi chưa sử dụng nó vì vậy tôi không thể nói nó tốt hay xấu, nhưng tôi nghĩ nó có thể giúp được ai đó.

Dường như với tôi rằng có cơ hội cho một dịch vụ được lưu trữ thực hiện sao lưu 'ngoại vi' các tệp được lưu trữ trên đám mây (S3, Google Storage, Rackspace Cloud Files, v.v.) ....

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.