Tôi đang cố gắng phát triển một công cụ báo cáo nhỏ (với phụ trợ sqlite). Tôi có thể mô tả tốt nhất công cụ này như một sổ cái "giao dịch". Những gì tôi đang cố gắng làm là theo dõi "giao dịch" từ trích xuất dữ liệu hàng tuần:
- "mới" (hoặc thêm) - tài nguyên là mới đối với ứng dụng của tôi vì ứng dụng của tôi có thể chưa theo dõi tài nguyên này trước đây vì nó chưa được nhìn thấy qua các trích xuất.
- "Cập nhật" (hoặc nhấn) - có một lần sử dụng tài nguyên đó gần đây, thời gian lưu giữ cập nhật thêm một tuần nữa.
- "xóa" (hoặc bỏ) - mục này không được sử dụng kể từ báo cáo cuối cùng (tùy chọn, nhưng sẽ rất tuyệt nếu có biểu đồ thay đổi theo tuần theo nhu cầu về tài nguyên).
Tất cả những gì tôi có là một trích xuất dữ liệu hàng tuần (tệp phẳng được phân định bằng đường ống) đến từ hệ thống lưu trữ / quản lý hồ sơ cũ mà tôi không kiểm soát được.
Mỗi dòng có thể được chưng cất về cơ bản này:
resource_id | resource info | customer_id | customer_info
Dữ liệu mẫu:
10| Title X | 1 | Bob
11| Another title | 1 | Bob
10| Title X | 2 | Alice
Mục tiêu là làm cho nó dễ dàng báo cáo về các tài nguyên chưa từng thấy sử dụng trong X tháng (dựa trên lần truy cập cuối cùng). Có một giai đoạn duy trì nơi các tài nguyên được giữ xung quanh để dễ truy cập nếu chúng phổ biến. Một tài nguyên đã không thấy sử dụng trong 18 tháng được đánh dấu để lưu trữ lâu dài ở nơi khác.
Đây phải là một vấn đề phổ biến. Tự hỏi nếu có một thuật toán có mục đích chung để xác định những gì mới / giống / bị xóa giữa các tập dữ liệu (db so với trích xuất mới nhất)?