Tôi đã thừa hưởng một cụm nghiên cứu với ~ 40TB dữ liệu trên ba hệ thống tệp. Dữ liệu kéo dài gần 15 năm và rất có thể có một số lượng lớn các bản sao khi các nhà nghiên cứu sao chép dữ liệu của nhau vì những lý do khác nhau và sau đó chỉ cần giữ lại các bản sao.
Tôi biết về các công cụ khử trùng như fdupes và rmlint. Tôi đang cố gắng tìm một cái sẽ hoạt động trên một tập dữ liệu lớn như vậy. Tôi không quan tâm nếu phải mất hàng tuần (hoặc thậm chí vài tháng) để thu thập dữ liệu tất cả dữ liệu - tôi có thể sẽ điều chỉnh nó bằng mọi cách để dễ dàng trên các hệ thống tệp. Nhưng tôi cần tìm một công cụ nào đó siêu hiệu quả với RAM hoặc có thể lưu trữ tất cả dữ liệu trung gian mà nó cần trong các tệp thay vì RAM. Tôi giả sử rằng RAM của tôi (64GB) sẽ cạn kiệt nếu tôi thu thập dữ liệu qua tất cả dữ liệu này dưới dạng một bộ.
Tôi đang thử nghiệm với fdupes trên cây 900 GB. Đó là 25% trong suốt quá trình và việc sử dụng RAM đã dần tăng lên trong suốt thời gian qua, bây giờ là 700MB.
Hoặc, có cách nào để chỉ đạo một quy trình sử dụng RAM ánh xạ đĩa để có sẵn nhiều hơn và nó không sử dụng RAM hệ thống?
Tôi đang chạy CentOS 6.