Làm thế nào để bạn sao lưu một máy chủ lưu trữ?


14

Tôi đang xem xét triển khai một máy chủ lưu trữ rất lớn để được sử dụng làm NAS trực tiếp cho một số máy chủ khác (tất cả đều dựa trên Linux).

Với kích thước rất lớn, ý tôi là từ 4TB đến 20TB không gian có thể sử dụng được (mặc dù không chắc chúng tôi sẽ thực sự biến nó thành 20TB).

Máy chủ lưu trữ sẽ là RAID 10 để bảo mật và hiệu suất dữ liệu, nhưng chúng tôi vẫn sẽ cần một giải pháp sao lưu bao gồm sao lưu ngoài trang web.

Câu hỏi của tôi là: Làm thế nào để bạn sao lưu nhiều dữ liệu đó!?

Không giống như tôi chỉ có thể kết nối ổ cứng di động và chuyển các tập tin qua. Chúng tôi hiện không có thiết bị nào khác có nhiều dung lượng lưu trữ này.

Tôi có cần lập ngân sách cho máy chủ lưu trữ thứ hai, ngoài trang web không hoặc có giải pháp nào tốt hơn không?


5
Tôi sẽ để lại bình luận bình thường của mình về việc sao lưu ngoại tuyến. Tôi thực sự lo lắng về một hệ thống sao lưu luôn "trực tiếp và trực tuyến". Nếu kẻ tấn công có thể lấy được tại hệ thống sản xuất của bạn và các bản sao lưu của bạn thì chúng có thể dọn rác các bản sao lưu của bạn ngay sau khi chúng hoàn thành việc dọn rác hệ thống sản xuất của bạn.
Evan Anderson

@Evan Tôi muốn có cả hai, khôi phục từ băng có thể mất nhiều giờ, nhưng khôi phục từ đĩa cục bộ hoặc đĩa được gắn trực tiếp có thể được thực hiện trong vài phút.
Tom O'Connor

@Tim O'Connor: D2D2T thật tuyệt khi bạn có thể lấy nó. Hãy nhớ rằng khôi phục các mục riêng lẻ từ đĩa hoặc băng có thể rất nhanh. Sao lưu dựa trên đĩa có tiếng là nhanh chóng khôi phục, nhưng hầu hết mọi người đều nghĩ rằng "truy cập dữ liệu trực tiếp từ phương tiện B2D" chứ không phải "khôi phục nó" khi họ nói điều đó. Nếu bạn phải khôi phục một vài TB dữ liệu từ hệ thống sao lưu dựa trên đĩa, giả sử, một SAN thay thế sau khi bạn bị đốt cháy trong đám cháy thì sẽ không còn "phút" để sao chép dữ liệu đó. Đĩa và băng cao cấp, về tốc độ truyền dữ liệu, rất giống nhau.
Evan Anderson

Câu trả lời:


13

Có nhiều cách xử lý dữ liệu kích thước đó. Rất nhiều thứ phụ thuộc vào môi trường của bạn và số tiền bạn sẵn sàng chi tiêu. Nói chung, có một vài chiến lược tổng thể 'lấy dữ liệu ra khỏi máy chủ':

  • Qua Ethernet Giống như trên hộp, dữ liệu được truyền đến một số nơi khác để xử lý. 20TB sẽ mất nhiều thời gian để sao chép hơn 1GbE, nhưng nó có thể được thực hiện. Phần cứng có thể giúp đỡ (chẳng hạn như liên kết 10GbE hoặc trong một số trường hợp liên kết với NIC).
  • Qua hệ thống con Lưu trữ Nếu bạn đang ở trên Kênh sợi quang, hãy gửi nó đến một thiết bị khác trên mạng FC. Nếu bạn đã có SAS, hãy gửi nó đến một thiết bị gắn liền với SAS. Nói chung nhanh hơn Ethernet.
  • Gửi nó đến một mảng đĩa khác Gửi nó đến một khối lưu trữ khác được gắn vào cùng một máy chủ.

Đó là chế độ xem 100Km. Một khi bạn bắt đầu phóng to mọi thứ sẽ bị phân mảnh nhiều hơn. Như đã đề cập, LTO5 là một công nghệ băng cụ thể được thiết kế cho các loại tải mật độ cao này. Một mảng lưu trữ giống hệt nhau là một mục tiêu tốt, đặc biệt nếu bạn có thể sử dụng thứ gì đó như GlusterFS hoặc DRBD để lấy dữ liệu ở đó. Ngoài ra, nếu bạn cần một vòng quay dự phòng hoặc chỉ có khả năng tiếp tục chạy trong trường hợp mảng bị lỗi sẽ ảnh hưởng đến những gì bạn đặt vào vị trí.

Khi bạn đã giải quyết được phương pháp xem 100Km, việc vào phần mềm sẽ là nhiệm vụ lớn tiếp theo. Các yếu tố ảnh hưởng đến điều này là những gì bạn có thể cài đặt trên máy chủ lưu trữ của mình ngay từ đầu (nếu là NetApp, đó là một điều, máy chủ Linux có một kho lưu trữ hoàn toàn là một thứ khác, như một máy chủ Windows có một kho lưu trữ) , bạn chọn phần cứng nào (chẳng hạn như tất cả các gói sao lưu FOSS đều xử lý tốt các thư viện băng từ) và loại lưu giữ dự phòng nào bạn yêu cầu.

Bạn thực sự cần phải tìm ra loại Phục hồi thảm họa nào bạn muốn. Sao chép trực tiếp đơn giản dễ dàng hơn, nhưng không cho phép bạn khôi phục từ tuần trước chỉ mới bây giờ. Nếu khả năng khôi phục từ tuần trước là quan trọng đối với bạn, thì bạn cần phải thiết kế cho loại điều đó. Theo luật (ở Mỹ và các nơi khác), một số dữ liệu cần được lưu giữ trong hơn 7 năm.

Nhân rộng đơn giản là dễ nhất để làm. Đây là những gì DRBD được thiết kế để làm. Khi bản sao ban đầu được thực hiện, nó chỉ gửi các thay đổi. Các yếu tố phức tạp ở đây là địa phương mạng, nếu mảng thứ 2 của bạn không ở gần DRBD chính có thể không khả thi. Bạn sẽ cần một máy chủ lưu trữ thứ 2 với ít nhất dung lượng lưu trữ như lần đầu tiên.


Về sao lưu băng ...

LTO5 có thể chứa 1,5TB dữ liệu không nén. Nuôi những con quái vật này đòi hỏi phải kết nối mạng rất nhanh, đó là Fibre Channel hoặc 6Gb SAS. Vì bạn cần sao lưu hơn 1,5TB trong một cú đánh, bạn cần xem xét các trình tải tự động (đây là một ví dụ: link , trình tải tự động 1 ổ đĩa 24 khe từ HP). Với phần mềm hỗ trợ họ, họ sẽ xử lý việc thay đổi băng dự phòng giữa chừng cho bạn. Họ thật tuyệt. Bạn vẫn sẽ phải rút băng ra để gửi đến địa điểm bên ngoài, nhưng đó là một cảnh tượng tuyệt vời hơn là treo suốt đêm để tự tải băng khi dự phòng gọi cho họ.

Nếu băng cung cấp cho bạn ' di sản, ew ' heebiegeebies, Thư viện băng ảo có thể là tốc độ của bạn nhiều hơn (chẳng hạn như cái này từ liên kết lượng tử :). Chúng giả vờ là các thư viện băng để sao lưu phần mềm trong khi thực sự lưu trữ mọi thứ vào đĩa với các kỹ thuật chống trùng lặp mạnh mẽ (bạn hy vọng). Những người hâm mộ thậm chí sẽ sao chép băng ảo vào băng thật cho bạn, nếu bạn thích loại đó, có thể rất tiện cho việc quay ngoài trang web.


Nếu bạn không muốn sử dụng ngay cả băng ảo, nhưng vẫn muốn sao lưu trực tiếp vào đĩa, bạn sẽ cần một mảng lưu trữ có kích thước đủ lớn để xử lý 20TB đó, cộng với nhiều dữ liệu thay đổi mạng bạn muốn để giữ một Các gói sao lưu khác nhau xử lý việc này khác nhau. Một số công nghệ chống trùng lặp thực sự tốt đẹp, một số công nghệ khác là hack. Cá nhân tôi không biết trạng thái của các gói phần mềm sao lưu FOSS trong lĩnh vực này (tôi đã nghe nói về Bacula), nhưng chúng có thể là đủ. Rất nhiều gói sao lưu thương mại có các tác nhân cục bộ mà bạn cài đặt trên các máy chủ được sao lưu để tăng thông lượng, có rất nhiều giá trị.


Cảm ơn bạn đã trả lời dài và suy nghĩ. Bạn đã cho tôi rất nhiều suy ngẫm :-p
Andrew Oblley

9

Máy hát tự động LTO-5? bạn cần một nơi nào đó giữa ba và 15 băng để sao lưu mảng đó, đây không phải là một con số quá lớn. Máy hát tự động sẽ đảm nhiệm việc thay đổi băng cho bạn và phần mềm sao lưu tốt (ví dụ: bacula) sẽ theo dõi (các) tệp nào nằm trên băng nào.

Bạn cũng sẽ muốn xem xét thời gian cần thiết để sao lưu một hệ thống tệp lớn, không phù hợp vì rất có thể FS sẽ thay đổi trong khoảng thời gian đó. Để có kết quả tốt nhất, một hệ thống tệp hỗ trợ ảnh chụp nhanh sẽ rất hữu ích, vì vậy bạn có thể chụp ảnh tức thời và thực hiện sao lưu toàn bộ hoặc tăng dần theo đó, thay vì chống lại hệ thống tệp trực tiếp.


1
Tôi không quen thuộc với các hệ thống băng. Tôi đoán không có cách nào để thực hiện sao lưu gia tăng. Ngoài ra, sẽ không mất vài giờ và liên quan đến việc thay đổi thủ công các ổ băng từ cái khác? Điều đó sẽ không lý tưởng bởi vì tôi sẽ chỉ có loại thời gian đó mỗi tháng một lần và chúng tôi thực sự không muốn có rủi ro về dữ liệu trong một tháng. Tôi có thiếu điều gì không, hay đây chỉ là những bất tiện / rủi ro / hạn chế được chấp nhận của hệ thống sao lưu băng?
Andrew Oblley

4
Các hệ thống sao lưu băng hiện đại rất tự động và robot :)
phoebus

3
Có, sao lưu băng thường cho phép sao lưu gia tăng. Chiến lược sao lưu tốt là thực hiện sao lưu toàn bộ (dài, chậm, nhiều băng) hàng tháng hoặc hai năm một lần, và thực hiện sao lưu hàng ngày hoặc sao lưu chênh lệch ở giữa.
Brent

Robot băng có giá hợp lý và giữ nhiều băng. Theo như sao lưu, tại sao không có cách nào để tăng? Cuối cùng, hầu hết mọi người kích hoạt sao lưu để chạy trong giờ nghỉ. Nếu bạn không có chúng, đó là một phần quan trọng của đặc tả.
Slartibartfast

Vâng, chúng tôi thực sự không có giờ nghỉ. Chúng tôi có những giờ mà hệ thống sẽ không được chấp nhận hơn (như 4 giờ sáng thứ Bảy), nhưng các hệ thống bị ảnh hưởng sẽ được sử dụng 24/7 bởi hàng trăm người dùng tiềm năng.
Andrew Oblley

5

Có lẽ bạn nên xem xét sao lưu vào đĩa , vì băng sẽ mất nhiều thời gian và để truy cập tuần tự, việc khôi phục sẽ mất mãi mãi.

Chắc chắn tận dụng lợi thế của sao lưu vi sai hoặc sao lưu gia tăng - chỉ sao lưu các thay đổi, ở bất kỳ tần số nào có ý nghĩa đối với bạn.

Có lẽ giải pháp lý tưởng sẽ có một máy chủ có kích thước tương tự thứ 2 ở một vị trí khác , nơi các bản sao lưu gia tăng được gửi thường xuyên, và điều đó có thể được hoán đổi nhanh chóng nếu máy chủ chính bị chết. Tuy nhiên, một lựa chọn khác là sử dụng các ổ đĩa di động tại chỗ, sau đó được đưa ra ngoài để lưu trữ.

Khi bạn xử lý nhiều dữ liệu đó, sẽ rất hợp lý khi chia các bản sao lưu của bạn thành các công việc sao lưu nhỏ hơn và nếu chúng không thể được sao lưu mỗi ngày, hãy sao lưu các bản sao lưu của bạn để thiết lập A được sao lưu vào một ngày và đặt B tiếp theo.

Luôn luôn suy nghĩ về thủ tục khôi phục . Chúng tôi đã bị choáng một lần khi chúng tôi phải khôi phục một tệp từ công việc sao lưu vài trăm gig, mất rất nhiều bộ nhớ và rất nhiều thời gian để xây dựng lại chỉ mục sao lưu và khôi phục. Cuối cùng, chúng tôi không thể hoàn thành nó trong một ngày và phải xây dựng một máy chủ khôi phục chuyên dụng để cho phép máy chủ sao lưu chính của chúng tôi tiếp tục công việc hàng đêm!

--thêm--

Bạn cũng muốn suy nghĩ về các công nghệ chống trùng lặp , có thể tiết kiệm dung lượng lớn bằng cách không sao lưu cùng một thông tin nhiều lần, cho nhiều người dùng. Nhiều giải pháp sao lưu hoặc hệ thống tập tin cung cấp sự trùng lặp như là một phần của chức năng của chúng.


+1 cho thinking about the restore procedure. Amen!
Steven Thứ Hai

Rất nhiều lời khuyên tuyệt vời. Cảm ơn. Tôi có rất nhiều suy nghĩ để làm.
Andrew Oblley

2
Tôi muốn upvote, nhưng tôi không thấy băng được đề cập. Băng rất có thể sẽ là một phần quan trọng của chế độ sao lưu cho lượng dữ liệu đó nếu cần bất kỳ cửa sổ lưu giữ quan trọng nào kết hợp với lưu trữ ngoài trang web. Chi phí của hộp mực LTO-5 cho việc lưu trữ ngoài trang web lâu dài, so với các ổ đĩa cứng di động, khiến chúng rất hấp dẫn. Hộp mực cũng được thiết kế để lưu trữ trong khi các ổ đĩa cứng có thể tháo rời thường là không.
Evan Anderson

@Evan: Công bằng mà nói, anh ấy đã đề cập đến băng trong câu đầu tiên.
Andrew Oblley

2

Đầu tiên, hãy liệt kê những rủi ro mà bạn đang bảo vệ chống lại. Một số rủi ro phổ biến:

  • Thảm họa: Một cái gì đó rất đáng tiếc xảy ra cho toàn bộ trang web của bạn.
  • Lỗi của con người (đây là lỗi xảy ra _all_the_time_):
    • Ai đó quyết định thực hiện khả năng "trao đổi nóng" của máy chủ lưu trữ của bạn theo cách không được nhà sản xuất dự định.
    • Ai đó chạy một quá trình âm thầm làm hỏng dữ liệu, được sao lưu đáng tin cậy trong một vài tháng trước khi vấn đề được chú ý.
    • Ai đó xóa báo cáo quan trọng đến hạn trong một giờ và trị giá hàng ngàn đô la.

Sau đó đánh giá chi phí của các giải pháp tránh rủi ro khác nhau, ví dụ:

  • Off-site, sao lưu trực tuyến (gương từ xa): An toàn khỏi thảm họa, một số (nhưng không phải tất cả) lỗi của con người (nó vẫn còn trên mạng).
  • Lưu trữ ngoại tuyến (băng từ): An toàn khỏi thảm họa, khó phục hồi dữ liệu nhanh chóng.
  • Sao lưu trực tuyến tại chỗ (gương): An toàn khỏi một số lỗi của con người, một số lỗi phần cứng, dễ bị ảnh hưởng bởi thảm họa.
  • Sao lưu ngoại tuyến tại chỗ (băng trong bộ đổi băng): An toàn với hầu hết lỗi của con người, hầu hết lỗi phần cứng.

Sau đó, đánh giá các chiến lược xoay vòng (bạn muốn có thể phục hồi bao xa, bao nhiêu dữ liệu bạn có thể đủ khả năng để mất).

Sau đó chọn những gì dữ liệu của bạn có giá trị.


Đẹp phá vỡ. Tôi đã đánh giá điều này cho hầu hết các phần và hạ cánh trên Tùy chọn sao lưu trực tuyến, ngoài trang web. Mục đích của việc sao lưu chủ yếu là để bảo vệ khỏi thảm họa bên cạnh lỗi rõ ràng của con người. Các giá nằm trong khoảng 2 dặm của bờ biển vịnh, do cơn bão là một mối quan tâm. Chúng ta sẽ phải làm hết sức mình để bảo vệ chống lại lỗi của con người bằng các kiểm tra tính toàn vẹn thường xuyên. Câu trả lời của bạn đã giúp tôi cảm thấy tốt hơn về kết luận này. Cảm ơn.
Andrew Oblley

Tôi rất vui vì tôi có thể giúp. Một số ý kiến ​​liên quan đến giải pháp bạn đã chọn: Điều này có thể không cần phải nói, nhưng trang web sao lưu có thể phải ở một trạng thái khác hoặc ở một nơi được bảo vệ tốt khỏi các cơn bão mà bạn phải chịu. Bạn có thể giảm thiểu những lo ngại về tham nhũng bằng cách có một 'cái đuôi' dài (sao lưu từ một loạt các ngày trong quá khứ). Với một bản sao lưu trực tuyến, bạn cũng muốn xem xét sự nguy hiểm của việc vô tình xóa dữ liệu thay vì khôi phục nó. Cuối cùng, luôn luôn kiểm tra quá trình khôi phục của bạn.
Slartibartfast

2

Tôi có một khách hàng với hai hệ thống 12 TB tương tự ở hai tòa nhà khác nhau, được kết nối ở mức 1GB. Một là hệ thống sản xuất; nó được sao lưu tăng dần (với các ảnh chụp nhanh hàng ngày) sang các tiện ích khác với tiện ích sao lưu tuyệt vời . sao lưu dự phòng phải có sẵn trong kho phân phối tiêu chuẩn của bạn.


1

Off-site, sao lưu trực tuyến (gương từ xa)

sử dụng rsync mặc dù ssh (chỉ thay đổi) - lần sao lưu đầu tiên phải được thực hiện cục bộ, nhưng sau lần sao lưu đó sẽ dễ dàng tùy thuộc vào thay đổi

nếu bạn cần giữ các phiên bản có thay đổi-sao lưu dự phòng

http://www.nongnu.org/rdiff-backup/

Hệ thống tập tin btrfs trong Linux nghe có vẻ đầy hứa hẹn, nhưng vẫn đang phát triển mạnh


Cảm ơn đã chỉ cho tôi về phía ndiff. Tôi đã sử dụng rsync và đây có vẻ là bước hoàn hảo từ đó.
Andrew Oblley

1

Hãy xem "nội dung" thực tế của bạn và tần suất thay đổi trước khi bạn lên kế hoạch cho chiến lược của mình. Nhiều khi mọi người chỉ đưa ra cùng một dữ liệu để ghi lại hàng tuần mà không có lý do chính đáng.

Các công nghệ chống trùng lặp từ một số nhà cung cấp có thể cho phép chụp nhanh để cứu bạn khỏi khôi phục tệp riêng lẻ nhưng bạn sẽ luôn cần bảo vệ ngoại vi.


Hệ thống sẽ được sử dụng bởi hàng ngàn có thể hàng chục ngàn người dùng hàng ngày nhập các biểu mẫu và cập nhật thông tin. Đây là dữ liệu rất năng động. Tôi nên đã đề cập rằng trong câu hỏi.
Andrew Oblley

Nếu là tôi, tôi sẽ thiết kế hệ thống với đủ khả năng chụp nhanh hoặc chụp nhanh mà tôi sẽ không phải vào các bản sao lưu thực sự trừ khi đó là một thảm họa.
SpacemanSpiff

Tôi đồng ý. Như tôi đã nói trước đây, các ổ đĩa sẽ ở trong RAID 10, vì vậy chúng tôi sẽ bảo vệ trong trường hợp hỏng ổ cứng và tôi cũng sẽ có các bản sao lưu / ảnh chụp nhanh cục bộ. Bản sao lưu ngoại vi dành cho trường hợp xấu nhất như sao băng va vào vị trí đồng phát hoặc ai đó vô tình chạy rm -rf / * trên máy chủ lưu trữ.
Andrew Oblley

Vâng, tôi đã đề cập đến chi phí liên quan đến năng lực. RAID10 là thông minh để dự phòng tốt nhất tất nhiên, nhưng tôi sẽ dùng RAID6 nếu hiệu suất không phải là một yêu cầu và nếu tôi có thể sử dụng thêm không gian cho khu vực chụp nhanh hơn. Bạn càng có đủ khả năng chụp nhanh, bạn sẽ càng cần ít "bản sao lưu" để khôi phục tập tin.
SpacemanSpiff
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.