Tôi là nghiên cứu sinh tiến sĩ địa vật lý và làm việc với lượng lớn dữ liệu hình ảnh (hàng trăm GB, hàng chục nghìn tệp). Tôi biết svn
và git
khá rõ và đánh giá cao lịch sử dự án, kết hợp với khả năng dễ dàng làm việc cùng nhau và có sự bảo vệ chống lại tham nhũng đĩa. Tôi git
cũng thấy rất hữu ích khi có các bản sao lưu nhất quán nhưng tôi biết rằng git không thể xử lý một lượng lớn dữ liệu nhị phân một cách hiệu quả.
Trong các nghiên cứu thạc sĩ của tôi, tôi đã làm việc trên các tập dữ liệu có kích thước tương tự (cũng như hình ảnh) và có rất nhiều vấn đề khi theo dõi phiên bản khác nhau trên các máy chủ / thiết bị khác nhau. Sử dụng 100GB qua mạng thực sự không thú vị và khiến tôi mất rất nhiều thời gian và công sức.
Tôi biết rằng những người khác trong khoa học dường như có vấn đề tương tự, nhưng tôi không thể tìm ra giải pháp tốt.
Tôi muốn sử dụng các thiết bị lưu trữ của viện của mình, vì vậy tôi cần một cái gì đó có thể sử dụng máy chủ "ngu ngốc". Tôi cũng muốn có một bản sao lưu bổ sung trên một đĩa cứng di động, vì tôi muốn tránh truyền hàng trăm GB qua mạng bất cứ khi nào có thể. Vì vậy, tôi cần một công cụ có thể xử lý nhiều hơn một vị trí từ xa.
Cuối cùng, tôi thực sự cần một cái gì đó mà các nhà nghiên cứu khác có thể sử dụng, vì vậy nó không cần phải cực kỳ đơn giản, nhưng có thể học được trong vài giờ.
Tôi đã đánh giá rất nhiều giải pháp khác nhau, nhưng dường như không có giải pháp nào phù hợp với dự luật:
- svn hơi kém hiệu quả và cần một máy chủ thông minh
- hg BIGFILE / largefile chỉ có thể sử dụng một từ xa
- git bigfile / media cũng chỉ có thể sử dụng một remote, nhưng cũng không hiệu quả lắm
- gác mái dường như không có nhật ký, hoặc khả năng khác
- Bup trông thực sự tốt, nhưng cần một máy chủ "thông minh" để hoạt động
Tôi đã thử git-annex
, đó là tất cả những gì tôi cần nó để làm (và nhiều hơn nữa), nhưng nó rất khó sử dụng và không được ghi chép tốt. Tôi đã sử dụng nó trong vài ngày và không thể hiểu ý tôi, vì vậy tôi nghi ngờ bất kỳ đồng nghiệp nào khác sẽ quan tâm.
Làm thế nào để các nhà nghiên cứu đối phó với các bộ dữ liệu lớn, và các nhóm nghiên cứu khác đang sử dụng là gì?
Để rõ ràng, tôi chủ yếu quan tâm đến cách các nhà nghiên cứu khác đối phó với tình huống này, không chỉ bộ dữ liệu cụ thể này. Dường như với tôi rằng hầu hết mọi người nên có vấn đề này, nhưng tôi không biết ai đã giải quyết nó. Tôi có nên giữ một bản sao lưu dữ liệu gốc và quên tất cả các công cụ kiểm soát phiên bản này không? Đó có phải là những gì mọi người khác đang làm?