Chi phí hiệu quả, lưu trữ lâu dài dữ liệu video và hình ảnh? ~ 50 TB


16

Phòng thí nghiệm của tôi đang trong quá trình thiết lập một máy chủ nhỏ chứa dữ liệu (chủ yếu là dữ liệu video và hình ảnh, cộng với một vài tài liệu) cho dự án mà nhóm chúng tôi đang thực hiện tại một thời điểm. Trong lịch sử, sau khi một dự án nghiên cứu kết thúc, dữ liệu cuối cùng được lưu trữ trong một ổ cứng, hoặc một đống DVD lớn (hoặc CD vào thời xa xưa), và / hoặc một số video đã kết thúc trong băng cassette Sony DV hoặc thậm chí Băng VHS (phòng thí nghiệm này đã hoạt động từ đầu những năm 90), HOẶC một hỗn hợp của tất cả các ...

Câu hỏi: Cách tốt nhất để (1) hợp nhất TẤT CẢ chúng vào cùng một định dạng VÀ phương tiện lưu trữ và (2) phương tiện nào tốt nhất để lưu trữ dữ liệu đó trong thời gian dài để truy cập rất thường xuyên (giả sử, hơn 30 năm?)? Thật không may, chúng tôi không có ngân sách cấp doanh nghiệp (chúng tôi chỉ là phòng thí nghiệm ~ 10 người), vì vậy không thể làm những việc có giá hàng trăm nghìn đô la.

Cảm ơn!

PS Xem xét video và hình ảnh cũ của chúng tôi có độ phân giải nhỏ hơn, nhưng những video gần đây rất lớn, tôi nghĩ chúng ta đang nói về 30 ~ 40 TB cho dữ liệu thực sự cũ, thêm 10 ~ 20 TB cho dữ liệu gần đây, sau đó thêm khoảng 5 TB mỗi năm .

Câu trả lời:


22

Thật không may, không có cách tốt nhất cho bạn. Lưu trữ 30 năm của phương tiện truyền thông kỹ thuật số là một vấn đề rất khó khăn và cần đầu tư thường xuyên. Về các định dạng duy nhất được đảm bảo có thể đọc được trong 30 năm là ASCII và UTF8, không phải là định dạng video. Thay đổi định dạng lưu trữ, 8 cuộn băng theo dõi mà chúng tôi đã sử dụng 30 năm trước không thể đọc được những ngày này mặc dù dữ liệu vẫn còn trên băng (có một câu chuyện thú vị về việc NASA xây dựng lại ổ băng từ 40 năm tuổi để có được một số băng dữ liệu Apollo mới được phục hồi / phát hiện). Đặt cược tốt nhất của bạn là cam kết định kỳ, tôi muốn nói cứ sau 5 năm, các đánh giá về môi trường lưu trữ của bạn với ngân sách đủ để đưa các định dạng cũ sang các định dạng mới hơn.

Bạn có thể biết rõ hơn tôi, nhưng bối cảnh video đang thay đổi nhanh chóng. Chỉnh sửa trực tuyến thời gian thực bây giờ là có thể, nơi nó chỉ có thể thực hiện được trên bộ công cụ nghiêm túc thậm chí 10 năm trước. Ai biết được mọi thứ sẽ như thế nào sau 30 năm.

  • Đặt cửa sổ lưu trữ của bạn trong 5 năm.
    • Trước mắt, một mảng lưu trữ lớn sẽ đủ (
      • đĩa 50TB lớn và chậm có thể có dưới 70 nghìn đô la, có thể là dưới.
      • Một ổ băng LTO5 và 50 băng (trị giá hơn 50TB) có thể có giá dưới 15 nghìn đô la.
  • Định dạng bạn lưu trữ video của bạn là tùy thuộc vào bạn.
  • Bắt đầu tìm và chuyển đổi tất cả những thứ cũ của bạn vào bộ lưu trữ mới này.
  • Vào cuối 5 năm, hãy đánh giá đầy đủ về môi trường lưu trữ của bạn.
    • Bạn đang sử dụng định dạng nào?
    • Các định dạng mới hơn là gì?
    • Những codec nào dường như là ngõ cụt, và phương tiện nào bạn đã lưu trữ được mã hóa theo cách đó?
    • Quyết định cách bạn sẽ di chuyển sang các phương thức lưu trữ mới hơn (định dạng dữ liệu, đĩa / băng / thứ khác) và chi tiêu phù hợp.
  • Lặp lại 6 lần.

Điều đó sẽ giúp bạn có được 30 năm.


+1, Nếu bạn thực sự cố gắng để có giá rẻ, có lẽ bạn có thể thoát khỏi việc này sau mỗi 10 năm. Các ổ đĩa ATA-66 & 100 là HD ưu tiên một thập kỷ trước và vẫn còn các công nghệ xung quanh để kết nối với chúng. Nhưng có những máy tính xung quanh đã thiếu tiêu đề IDE, công nghệ cũ hàng thập kỷ đang trở thành iffy.
Chris S

6
+1 cho điểm tốt khi sao chép, nhưng -1 để khẳng định rằng các định dạng sẽ không thể đọc được. Khi dữ liệu có sẵn trên một phương tiện có thể sao chép, các tệp đó sẽ không thể trở thành không thể phát được trừ khi chúng ở định dạng RẤT kỳ lạ. Lưu trữ vào một cái gì đó rất chính thống như MPEG2 rất có thể là một định dạng bền. Chuyển mã video bị mất là một quá trình mất mát. Nó không nên được thực hiện. Chúng tôi không mất nhiều tiền để giữ một bộ giải mã video chính thống ...
Paul McMillan

@Paul Cảm ơn những lời khuyên. Lần cuối cùng tôi thường xuyên đi vòng quanh mọi người video là 7 năm trước, vì vậy tôi rất gỉ.
sysadmin1138

Cảm ơn bạn rất nhiều vì đánh giá chi tiết và lời khuyên! Chúng tôi sẽ làm tốt nhất có thể với ngân sách CNTT hạn chế không may của chúng tôi. Rất vui vì tất cả các bạn và serverfault.com đều có mặt để giúp đỡ.
hpy

Vâng, chúng tôi đã đến một cách. Tuy nhiên, tôi không gặp vấn đề gì khi phát các tệp AVI 17 tuổi từ windows 3,1 ngày. Bí quyết nằm ở việc chọn các định dạng đã được sử dụng rộng rãi.
Paul McMillan

11

Tôi hoàn toàn đồng ý với bài đăng của sysadmin1138 theo mọi cách để một lời cảnh báo - Tôi không nghĩ bạn sẽ có ngân sách để thực sự đạt được những gì bạn muốn.

Có 5 chức năng chính bạn cần tạo;

  • một chính sách nội dung và danh mục được tiêu chuẩn hóa - Tôi biết bạn muốn lưu trữ mọi thứ ở một định dạng nhưng bạn thực sự nên xem xét hai - PDF cho hình ảnh và H.264 cho video - cả hai đều là định dạng hỗ trợ dài hạn với mã đa nền tảng sẽ gần như chắc chắn được hỗ trợ bởi một bên hoặc một bên khác trong 25-50 năm ở dạng hiện tại của họ chỉ đơn giản là do việc sử dụng hiện có trên khắp thế giới.
  • một danh mục hoặc CMS để lập chỉ mục và xuất bản nội dung.
  • một hệ thống 'nhập nội dung' - điều này sẽ lấy tất cả phương tiện, gói, mã hóa, lưu trữ và cập nhật danh mục cho mỗi phần nội dung mới. Bạn cũng sẽ cần kiểm tra chất lượng nội dung thủ công hoặc tự động.
  • một kho lưu trữ nội dung chính - cái này sẽ có hai khối lưu trữ chính; một cái nhỏ để giữ nội dung gốc trong khi nó được chuyển mã / kiểm tra và một khối lớn hơn nhiều để giữ nội dung 'gần'. Đây là một trong những cách sử dụng hợp lệ duy nhất cho RAID 6 mà tôi đã gặp nhưng hãy thử sử dụng các đĩa chất lượng doanh nghiệp có "chu kỳ nhiệm vụ" 24x365 ở đây.
  • hệ thống sao lưu dài hạn - đây là nơi sẽ tiêu tiền thật, bạn sẽ cần chọn một nhà cung cấp có khả năng sao lưu thực sự dài hạn. Nếu tôi đang làm điều này ngay bây giờ thì tôi vẫn đi băng đĩa hoàn toàn vì lý do tuổi thọ dữ liệu, có lẽ bởi IBM vì họ có nhiều kinh nghiệm trong lĩnh vực này. Bạn cũng cần xem xét rằng bạn cũng cần phải phục hồi băng thông thường và xác minh dữ liệu, nghĩa là bạn sẽ cần một khối lưu trữ thứ ba ít nhất bằng băng lớn nhất bạn có - và tất nhiên các hệ thống phải xác minh. Trên hết, bạn sẽ cần đảm bảo rằng phần mềm sao lưu mà bạn sử dụng cũng sẽ tồn tại trong một thời gian dài, một cái gì đó như TAR trên * nix có thể sẽ xuất hiện trong một thời gian nhưng nó có thể không cung cấp cho bạn những gì bạn muốn đảm bảo điều này không bị bỏ qua bởi nhà cung cấp băng của bạn.

Vì vậy, những gì bạn muốn làm có thể được thực hiện, tôi đã tự mình thực hiện một số lần trong hai thập kỷ qua hoặc lâu hơn - nhưng không có gì là rẻ cả tôi sợ.

Chúc may mắn.


PDF cho hình ảnh có vẻ như là một cách khá kinh khủng để làm điều đó. Có hoàn toàn PDF cho các tài liệu, nhưng giữ hình ảnh dưới dạng tiff hoặc JPEGS tùy thuộc vào định dạng đầu ra của bạn. Khả năng đọc những thứ đó khó có thể biến mất.
Paul McMillan

Cảm ơn vì những lời khuyên! Nếu tôi có thể gắn cờ hai câu trả lời được chấp nhận, tôi sẽ làm điều này. :)
hpy

1
đó là ok penyuan, 1138 và là chồi;)
Chopper3

2
Thành thật mà nói, khó khăn với bất kỳ loại hệ thống CMS nào là nó có thể là phần đầu tiên và lỗi thời nhất của hệ thống. Bạn gần như sẽ tốt hơn khi yêu cầu mọi người viết tệp văn bản ASCII với một số mô tả cơ bản và lưu trữ nó với dữ liệu thô của bạn. Bất kỳ CMS hoặc hệ thống tự động sẽ trở nên cũ kỹ trên quy mô một vài năm.
Paul McMillan

3

Những người khác đã đưa ra lời khuyên tốt về cách sao lưu phương tiện truyền thông của bạn. Tôi sẽ đề nghị bạn dành một chút thời gian chất lượng để xem thư viện hướng dẫn của đại hội:

http://www.digitalpreservation.gov/formats/index.shtml

Bạn cũng có thể xem xét việc xây dựng một mảng ZFS whitebox giá rẻ. Bạn có thể có thể làm một cái gì đó để phù hợp với nhu cầu của bạn với giá dưới 10k. Khi các ổ đĩa bị chết, hãy thay thế chúng bằng những ổ đĩa lớn hơn và do đó dung lượng lưu trữ của bạn sẽ tăng lên khi bạn tạo dữ liệu. Điều đó có thể sẽ khiến bạn tiếp tục khá lâu và bạn có thể thay thế nó bằng một thiết bị có công suất cao hơn khi nó đã cũ. Ưu điểm là dữ liệu của bạn trực tuyến (và do đó nó có thể được truy cập khi cần thiết) và được bảo vệ tương đối tốt trước bitrot, một vấn đề nghiêm trọng khi bạn có nhiều dữ liệu này.

Một tùy chọn xây dựng hợp lý đã được đặt cùng nhau ở đây:

http://www.zfsbuild.com/


2

Khó như đối với các nhà công nghệ, tôi khuyên bạn nên ngừng ngay lập tức những suy nghĩ về đĩa và công nghệ. Chia nhỏ vấn đề kinh doanh của bạn thành những điều mà bạn phải đưa ra quyết định.

Thí dụ:

  • Làm thế nào bạn sẽ đối phó với việc chuyển đổi các định dạng băng kỹ thuật số tương tự / linh tinh thành phương tiện kỹ thuật số có thể được lưu trữ trên một số loại lưu trữ kỹ thuật số?
  • Làm thế nào bạn sẽ quản lý nội dung và siêu dữ liệu liên quan? Việc lưu trữ rất dễ dàng - bạn có thể đặt mọi thứ vào băng LTO và lưu trữ nó trong một mỏ muối cũ, nhưng bạn sẽ không có quyền truy cập vào dữ liệu.
  • Bạn đang phát minh lại bánh xe? Nếu bạn đang ở trường đại học, đã có giải pháp quản lý nội dung có sẵn ở trung tâm chưa? Hoặc nếu bạn cần mua / xây dựng quản lý nội dung của riêng mình, có cơ sở hạ tầng tập trung mà bạn có thể mua một phần không? (Băng, lưu trữ đối tượng, SAN)
  • Các yêu cầu kinh doanh thực sự là gì? Bạn thực sự muốn giữ gì và tại sao? Thông thường khi bạn thực sự đi sâu vào trọng tâm của vấn đề, các yêu cầu duy trì dài hạn thực sự thực sự chỉ áp dụng cho một tập hợp nhỏ dữ liệu.

1

Xin lưu ý rằng nếu bạn lưu trữ dữ liệu ở định dạng mất dữ liệu, sau đó chuyển đổi sang định dạng mất dữ liệu khác, sau đó chuyển sang định dạng khác, chất lượng video của bạn sẽ giảm theo mỗi lần chuyển đổi.

Sau đây là nói về âm thanh, nhưng thường được áp dụng tương tự:

Bạn có thể chuyển đổi bất kỳ định dạng âm thanh sang Ogg Vorbis. Tuy nhiên, chuyển đổi từ một định dạng mất, như MP3, sang định dạng mất khác, như Vorbis, nói chung là một ý tưởng tồi. Cả hai bộ mã hóa MP3 và Vorbis đều đạt được tỷ lệ nén cao bằng cách loại bỏ các phần của dạng sóng âm thanh mà bạn có thể sẽ không nghe thấy. Tuy nhiên, codec MP3 và Vorbis rất khác nhau, vì vậy mỗi loại sẽ loại bỏ các phần khác nhau của âm thanh, mặc dù chắc chắn có một số phần trùng lặp. Chuyển đổi MP3 thành Vorbis liên quan đến việc giải mã tệp MP3 trở lại định dạng không nén, như WAV và giải nén nó bằng bộ mã hóa Ogg Vorbis. MP3 được giải mã sẽ thiếu các phần của âm thanh gốc mà bộ mã hóa MP3 đã chọn để loại bỏ. Bộ mã hóa Ogg Vorbis sau đó sẽ loại bỏ các thành phần âm thanh khác khi nén dữ liệu. Tốt nhất, kết quả sẽ là một tệp Ogg có âm thanh giống với MP3 gốc của bạn, nhưng rất có thể tệp kết quả sẽ nghe tệ hơn MP3 gốc của bạn. Trong mọi trường hợp, bạn sẽ nhận được một tập tin âm thanh tốt hơn MP3 gốc.

Vì nhiều trình phát nhạc có thể phát cả tệp MP3 và Ogg, không có lý do gì bạn phải chuyển tất cả các tệp của mình sang định dạng này hoặc định dạng khác. Nếu bạn thích Ogg Vorbis, thì chúng tôi sẽ khuyến khích bạn sử dụng nó khi bạn mã hóa từ các nguồn âm thanh gốc, không mất dữ liệu (như đĩa CD). Khi mã hóa từ bản gốc, bạn sẽ thấy rằng bạn có thể tạo các tệp Ogg nhỏ hơn hoặc có chất lượng tốt hơn (hoặc cả hai) so với MP3 của bạn.

(Nếu bạn nhất định phải chuyển đổi từ MP3 sang Ogg, có một số tập lệnh chuyển đổi có sẵn trên Freshmeat.)

http://www.vorbis.com/faq/#transcode

Vì vậy, tốt nhất là chọn một định dạng lossless, bởi vì một khi bạn chọn một định dạng lossy, bạn sẽ bị mắc kẹt với nó.


3
Video lossless hiện không thực tế để lưu trữ. Đơn giản là quá tốn kém để lưu trữ hợp đồng biểu diễn mỗi phút. Chọn một codec bị mất mà bạn hài lòng với hiện đang được sử dụng rộng rãi và để phương tiện của bạn trong đó.
Paul McMillan

Cảm ơn vì những điểm tốt về sự mất mát, chúng tôi chắc chắn sẽ suy nghĩ kỹ về điều này.
hpy

1

Có lẽ tôi đang thiếu thứ gì đó, bạn không thể mã hóa mọi thứ bằng cách sử dụng định dạng mở trong đó mã nguồn cho các codec có sẵn, và sau đó chỉ cần dán tất cả vào Amazon S3?

Bằng cách đó, Amazon phải lo lắng về việc lưu trữ dữ liệu thực tế và, trừ khi không có máy tính nào có thể biên dịch C / C ++ trong 30 năm, bạn sẽ có thể nhận được thông tin ...

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.