Làm thế nào để sao lưu 20 + TB dữ liệu?


86

Chúng tôi có một máy chủ NAS tại công ty tôi làm việc đang được sử dụng để lưu trữ các phiên chụp ảnh. Mỗi phiên là khoảng 100gb. Trong vài năm qua, máy chủ này đã tích lũy được hơn 10 TB dữ liệu và chúng tôi đang tăng số lượng ảnh chụp theo cấp số nhân. Tôi ước tính rằng vào cuối năm tới, chúng tôi sẽ có hơn 20 TB được lưu trữ trên NAS này. Chúng tôi hiện đang sao lưu máy chủ này lên băng bằng cách sử dụng băng LTO-5 với Symantec BackupExec. Vì kích thước của máy chủ này đã tăng lên, các bản sao lưu đầy đủ của máy chủ này không hoàn thành sau một đêm. Có ai có bất kỳ đề nghị về cách sao lưu lượng dữ liệu này? Chúng ta có nên sao lưu nó lên băng? Có lựa chọn nào khác có thể tốt hơn không?


36
Tại sao bạn thực hiện sao lưu đầy đủ mỗi đêm? Tại sao không chạy sao lưu toàn bộ mỗi tuần một lần và chạy sao lưu gia tăng 6 ngày còn lại một tuần?
joeqwerty

9
Đó là những gì chúng tôi đang làm, xin lỗi tôi đã không đề cập rằng ... toàn bộ hàng tuần là thứ không hoàn thành.
Jesus Fidalgo

6
Có cần một tuần đầy đủ để hoàn thành qua đêm? Không có gì lạ khi các tuần phải mất hơn 24 giờ cho một bộ dữ liệu đủ lớn.
Stefan Lasiewski

2
Bạn đang sử dụng loại NAS nào?
ewwhite

6
Bạn có chắc chắn sự gia tăng trong chụp ảnh là theo cấp số nhân ?
gerrit

Câu trả lời:


114

Bạn cần lùi lại một bước và ngừng suy nghĩ "Tôi đã có 20TB trên NAS, tôi cần sao lưu!" và phát triển một chiến lược lưu trữ có tính đến bản chất của dữ liệu của bạn:

  • Nó đến từ đâu và bạn nhận được bao nhiêu dữ liệu mới? (bạn đã hiểu điều này trong câu hỏi của bạn)
  • Dữ liệu được sử dụng như thế nào khi bạn có nó? Có phải mọi người đang chỉnh sửa hình ảnh? Bạn có giữ bản gốc và tạo các phiên bản chỉnh sửa không?
  • Bạn cần giữ tất cả dữ liệu trong bao lâu? Có phải mọi người vẫn đang thay đổi hình ảnh từ 2 năm trước?

Tùy thuộc vào câu trả lời cho hai câu hỏi cuối cùng, có lẽ bạn cần nhiều Hệ thống lưu trữ hơn là một hệ thống sao lưu hoàn toàn khác.

Dữ liệu tĩnh (ví dụ: ảnh 2 năm mà bạn giữ lại "chỉ trong trường hợp") không cần sao lưu mỗi đêm, hoặc thậm chí mỗi tuần, nó cần được lưu trữ. Những gì bạn thực sự làm có thể phức tạp hơn, nhưng về mặt khái niệm, tất cả các hình ảnh cũ có thể được ghi vào băng (nhiều bản sao!) Và không được sao lưu nữa.

Dựa trên ý kiến ​​của bạn, một số suy nghĩ bổ sung:

  • Vì bạn giữ nguyên bản gốc của mỗi lần chụp và làm việc trên một bản sao, và giả sử rằng ít nhất một số hình ảnh gốc là những người ngu ngốc, bạn có thể cắt giảm một nửa dữ liệu cần sao lưu.

  • Nếu bạn vẫn không thể hoàn thành một bản sao lưu đầy đủ trong bất kỳ thời gian nào bạn có, một cách phổ biến để tăng tốc mọi thứ là thực hiện sao lưu từ đĩa sang đĩa trước và sau đó sao chép bản sao lưu được đặt vào băng.


1
Ảnh gốc được lưu trữ không bị ảnh hưởng, sau đó một bản sao khác của ảnh chụp được sử dụng để chỉnh sửa. Dữ liệu có thể cần được lưu giữ khoảng 2 năm.
Jesus Fidalgo

20
+1 Nói tốt. Tôi ngạc nhiên về sự khác biệt giữa Sao lưu và Lưu trữ, nói chung, được hiểu kém. Tôi thực hiện sao lưu đầy đủ và gia tăng dữ liệu hệ thống và dữ liệu phù hợp của mình như email & tài liệu, nhưng lưu trữ ảnh của tôi (1,2TB và đang phát triển :-). Ước gì tôi cũng có thể đưa ra +1 cho đề xuất từ ​​đĩa sang đĩa.
Ex Umbris

8
+1 Tôi đặt cược rằng 80% dữ liệu trên NAS không bao giờ được sử dụng nhiều hơn một lần.
Stefan Lasiewski

+1 Tùy chọn tốt nhất ở đây là thực hiện chuyển hàng ngày và thậm chí hàng giờ sang đĩa delta để nắm bắt các thay đổi và sau đó gửi các bản sao lưu đầy đủ hoặc tăng dần đến một kho lưu trữ hoặc nhà cung cấp ngoài địa điểm trên cơ sở hàng tuần hoặc nửa tuần. Chúng tôi thường lấy các bản sao lưu delta của các tệp SQL của mình sau mỗi 15 phút để giảm lượng mất dữ liệu trong kịch bản DR.
Brent Clausst

12

Bạn có hai lựa chọn:

Lựa chọn 1:

  1. Mua một NAS khác
  2. Cấp cho người dùng RO của bạn quyền truy cập vào new_NAS
  3. Di chuyển tất cả các tệp cũ hơn 2 năm sang new_NAS
  4. Tiếp tục sao lưu old_NAS như bình thường
  5. Cứ sau 6 tháng chuyển các tệp cũ hơn 2 năm sang new_NAS

Tùy chọn 2:

  1. Mua một NAS khác
  2. Chạy rsyncmỗi giờ: old_NAS -> new_NAS

    hoặc, tốt hơn là sử dụng một cái gì đó như sao lưu dự phòng mà rsync + giữ deltas với các thay đổi tệp (bạn có thể khôi phục các phiên bản cũ hơn của tệp)

    rdiff-backup  user1@old_NAS::/source-dir    user2@new_NAS::/dest-dir
    
  3. Cứ sau 6 tháng dọn sạch các tập tin cũ chạy một cái gì đó như:

    rdiff-backup --remove-older-than 2Y    old_NAS::/dest-dir
    

2

Tại sao các bản sao lưu của bạn phải hoàn thành qua đêm? Hiệu suất tập tin máy chủ? Bạn có thể hạn chế băng thông của phần mềm sao lưu để hạn chế tác động trong ngày. Hoặc dành một giao diện trên NAS của bạn để nói chuyện với ổ băng từ để hạn chế tác động đến lưu lượng khác.

Bạn có thể chạy các bãi đầy đủ vào cuối tuần và chỉ làm tăng dần trong tuần không? Nếu vấn đề là thay đổi băng vào cuối tuần khi không có ai xung quanh, một thư viện / autochanger băng giá rẻ có chi phí thấp hơn nhiều so với việc trả tiền cho ai đó để thay băng.

Bạn có thể phân đoạn dữ liệu của bạn thành nhiều nhóm đủ nhỏ để hoàn thành trong cửa sổ sao lưu của bạn không?

Chúng tôi có khoảng 50TB dữ liệu trên một NAS của chúng tôi và phải mất hơn một tuần để có được toàn bộ dữ liệu bằng cách sử dụng 2 ổ băng (một ổ đĩa mất gần một tuần vì nó chứa nhiều tệp nhỏ). Những gì chúng tôi làm là sao chép dữ liệu của chúng tôi sang một NAS thứ hai. NAS thứ cấp của chúng tôi là tại chỗ (nhưng trong một trung tâm dữ liệu khác với trung tâm chính), vì vậy chúng tôi vẫn lưu dữ liệu vào băng để sao lưu ngoài trang web. Chúng tôi chạy các bản sao lưu từ NAS thứ cấp đó để các bản sao lưu không làm chậm bất cứ ai.

Nếu bạn có thể đặt NAS thứ cấp của bạn đủ xa, thì đó có thể là bản sao lưu của bạn, không cần băng.


1

Tôi chỉ nghi ngờ về kích thước của mỗi phiên chụp, nó có thực sự là 100gb / phiên không? Công ty của bạn làm bao nhiêu buổi mỗi tháng?

Vì bạn chủ yếu lưu trữ các phiên cũ sẽ không được sử dụng thường xuyên, v.v. và có lẽ không cần khôi phục thông tin đó thường xuyên, tôi sẽ đề nghị bạn sử dụng các dịch vụ từ một số công ty để thực hiện nhiệm vụ đó cho bạn .

Ví dụ, lưu trữ 20TB đó bằng dịch vụ trực tuyến như Amazon Glacier sẽ tốn hơn 200 đô la một tháng. Nếu bạn cần truy xuất những tài liệu lưu trữ đó thường xuyên, hoặc thậm chí phục hồi sau đó đầy đủ, nó sẽ gặp phải một số hạn chế về thời gian / chi phí. Nếu bạn chỉ lưu trữ những thứ đó "để chắc chắn rằng chúng được lưu trữ", có lẽ sử dụng phần thứ ba có thể giúp cuộc sống của bạn dễ dàng hơn (và thậm chí rẻ hơn so với việc mua một NAS, băng, v.v.)


1
100 GB mỗi phiên nghe có vẻ hơi cao đối với tôi, nhưng không phải là không có lý. Chúng tôi thường có phiên 32 GB mà tôi thường làm việc và thiết bị của chúng tôi là loại trung bình.
Tom Marthenal

1

full backups of this server are not completing overnight
Sau đó thử sao lưu gia tăng? Một bản sao lưu đầy đủ mỗi xx ngày, tăng phần còn lại.

Đĩa cứng không tốn kém, nhanh hơn băng và có thể được sử dụng để sao lưu.

Ngoài ra, có những lựa chọn thay thế tốt cho sao lưu đám mây ngay bây giờ để không cần phải tiếp tục thêm băng từ nhanh hơn.
Ví dụ:


Nhìn vào các bình luận - đó là bản đầy đủ hàng tuần không hoàn thành. Ngoài ra, sao lưu đám mây cho 20TB dữ liệu ... không phải là ý kiến ​​hay. Tùy chọn "giá rẻ" của Amazon Glacier sẽ có giá ~ 2500 / năm và lấy tất cả dữ liệu đó sẽ có giá ~ 36.000 đô la.
HoplessN00b

Đó không thực sự là rất nhiều.
Sirex

1
Tôi đoán đó là vấn đề quan điểm nếu $ 2400 / năm là rất nhiều cho 20TB lưu trữ miễn phí tương đối an toàn và bảo trì đầy đủ. Không tiêu thụ năng lượng, không làm mát, không hỏng phần cứng, không SLA, không chiếm không gian rack. Và như với hầu hết các hệ thống, bạn sẽ mong đợi khoảng 0 thao tác khôi phục hoàn toàn. Và nếu bạn cần phục hồi, giá sẽ cao hơn $ 1800 so với $ 36000 (không chắc bạn lấy số đó từ đâu).
Tedd Hansen

Đối với sông băng, $ 36K là khá gần. Tôi gần như tính toán nó là $ 42K cho chi phí truy xuất trên 20TB. Mặc dù vậy nó vẫn không nhiều. Băng thông là một vấn đề.
Sirex

1

Tôi nghĩ rằng giải pháp tốt nhất cho việc này là những gì chúng tôi làm với dữ liệu bảng lương của chúng tôi, việc này sẽ mất một nỗ lực tối thiểu để bạn thực hiện.

  • Ban đầu, nó được giữ với phần còn lại của dữ liệu máy chủ được sao lưu hàng ngày. Thời gian lưu giữ của chúng tôi trên các bản sao lưu là 13 tháng.

  • Khi chúng tôi không còn mong đợi rằng dữ liệu sẽ cần phải được sửa đổi, (hai kỳ thanh toán sau, IIRC), dữ liệu sẽ được lưu thông qua một tập lưu trữ được loại trừ khỏi các bản sao lưu thông thường.

  • Khối lượng lưu trữ được sao lưu vào băng hàng năm và các băng được gửi đến Cintas để lưu trữ không xác định.

Điều này cho phép chúng tôi có quyền truy cập trực tuyến vào dữ liệu không thay đổi đó một cách dễ dàng (vì vậy chúng tôi không phải gọi vào băng bất cứ khi nào kế toán muốn xem xét một cái gì đó), trong khi duy trì lưu trữ dữ liệu ngoài trang web vô thời hạn mà chúng tôi có thể cần lưu giữ mãi mãi , và không nghiền nát hệ thống sao lưu của chúng tôi. Âm thanh giống như kiểu thiết lập có thể phù hợp với bạn, mặc dù bạn có thể muốn điều chỉnh lượng dữ liệu bạn giữ trực tuyến, tùy thuộc vào nhu cầu của bạn để truy cập dữ liệu này một cách kịp thời - 20TB dung lượng lưu trữ cấp doanh nghiệp đắt hơn rất nhiều hơn là lưu trữ nó vào hai hoặc ba bộ băng LTO5 mà bạn lưu trữ trong kho ngoài trang web.


0

Có lẽ bạn có thể xây dựng Backblaze Pod của riêng mình : 135Tb với giá 7384 $
Bấm vào đây để biết thêm thông tin: Thông tin về tòa nhà Backblaze Pod

Bạn có thể mua những mảnh cần thiết và tự xây dựng nó.

Có lẽ bạn có thể xây dựng 3 trong số chúng, và giữ 2 tại chỗ và 1 ngoài cơ sở. Sau đó, bạn có thể sử dụng một nhóm làm "dữ liệu trực tuyến", nhóm tại chỗ thứ hai làm bản sao lưu của nhóm đầu tiên và nhóm ngoại vi thứ ba làm bản sao lưu ngoại vi khẩn cấp.

Với 135Tb dung lượng lưu trữ cho mỗi nhóm, bạn thậm chí có thể nghĩ về việc giữ một số lịch sử thay đổi ...
135Tb / 20Tb = 19 bản sao lưu đầy đủ .
Ngoài ra, bạn có thể giữ 10 bản sao lưu đầy đủ cộng với số lượng sao lưu chênh lệch vô lý.

Đương nhiên, nếu bạn muốn sao lưu ngoại vi, bạn sẽ cần một loại băng thông lớn ... :-)


5
Nếu dữ liệu và công việc của bạn là quan trọng đối với bạn, bạn không nên cố gắng xây dựng nhóm backblaze của riêng mình từ đầu. Có vẻ như đó là một ý tưởng tốt, cho đến khi bạn nhận ra rằng bạn đang đặt tất cả trứng vào một giỏ thực sự lớn. Tệ hơn nữa, cái giỏ đó chưa được kiểm tra toàn bộ. Nước sốt bí mật backblaze là bản sao phần mềm trên nhiều nhóm, cho phép toàn bộ vỏ bị hỏng liên tục. Thay vào đó, tôi muốn giới thiệu một máy chủ lưu trữ siêu thị, centos, xfs và sao lưu dự phòng.
bugaboo

-1

Đồng nghiệp của tôi đã mua một NAS 8 đĩa Synology. Nó chạy RAID lai. Anh ta đã mua tám chiếc Seagate Barracuda 3TB từ NewEgg vài tuần trước với giá 89 USD mỗi chiếc. Bạn có thể phản chiếu rsync từ NAS sản xuất sang NAS mới này qua GigaBit. Vì bạn chỉ chuyển khoản chênh lệch, việc chuyển tiền sẽ mất một thời gian ngắn hơn. Sau đó, bạn có thể sử dụng NAS dự phòng để thực hiện đầy đủ hoặc gia tăng. Chi phí cho bạn sẽ dưới 2000 đô la ngoài cửa cho một NAS dự phòng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.