Chúng tôi có cấu trúc thư mục trên mạng nội bộ của chúng tôi chứa khoảng 800.000 tệp được chia thành khoảng 4.000 thư mục. Chúng tôi cần đồng bộ hóa điều này với một cụm máy nhỏ trong DMZ của chúng tôi. Độ sâu của cấu trúc rất nông (nó không bao giờ vượt quá hai cấp độ sâu).
Hầu hết các tệp không bao giờ thay đổi, mỗi ngày có một vài nghìn tệp được cập nhật và 1-2 nghìn tệp mới. Dữ liệu là dữ liệu báo cáo lịch sử được duy trì trong đó dữ liệu nguồn đã bị xóa (tức là đây là các báo cáo được hoàn thiện mà dữ liệu nguồn đã đủ cũ để chúng tôi lưu trữ và xóa dữ liệu đó). Đồng bộ hóa một lần mỗi ngày là đủ để nó có thể xảy ra trong một khung thời gian hợp lý. Báo cáo được tạo qua đêm và chúng tôi đồng bộ hóa điều đầu tiên vào buổi sáng như một nhiệm vụ theo lịch trình.
Rõ ràng vì rất ít các tập tin thay đổi một cách thường xuyên, chúng tôi có thể hưởng lợi rất nhiều từ bản sao tăng dần. Chúng tôi đã thử Rupync, nhưng có thể mất đến tám đến mười hai giờ chỉ để hoàn thành thao tác "danh sách tệp xây dựng". Rõ ràng là chúng tôi đang nhanh chóng vượt xa khả năng của rsync (khung thời gian 12 giờ là quá dài).
Chúng tôi đã sử dụng một công cụ khác có tên RepliWeb để đồng bộ hóa các cấu trúc và nó có thể thực hiện chuyển khoản gia tăng trong khoảng 45 phút. Tuy nhiên, dường như chúng tôi đã vượt quá giới hạn, nó đã bắt đầu thấy các tệp hiển thị dưới dạng xóa khi chúng không hoạt động (có thể một số cấu trúc bộ nhớ trong đã cạn kiệt, chúng tôi không chắc chắn).
Có ai khác chạy vào một dự án đồng bộ hóa quy mô lớn của loại này? Có một cái gì đó được thiết kế để xử lý các cấu trúc tệp lớn như thế này để đồng bộ hóa?