Chúng tôi đang tạo một trang web sẽ thu thập thông tin vị trí (điểm) từ người dùng. Chúng tôi đang khám phá các kỹ thuật để bảo vệ quyền riêng tư của người dùng (ví dụ: thường người dùng sẽ chia sẻ địa chỉ nhà của họ, rất nhạy cảm). Một lựa chọn xuất hiện trong đầu là làm xáo trộn hoặc "băm" các điểm trước khi lưu trữ chúng trong cơ sở dữ liệu, loại bỏ nhu cầu lưu trữ những dữ liệu nhạy cảm này.
Yêu cầu cơ bản của chúng tôi là, tôi tin rằng:
Với một điểm bị che khuất duy nhất, không thể lấy được điểm ban đầu trong phạm vi (giả sử) một km hoặc thậm chí, với tất cả các siêu dữ liệu liên quan đến điểm (nghĩa là toàn bộ cơ sở dữ liệu bị xâm phạm).
Cho một tập hợp lớn các điểm bị che khuất tương ứng với cùng một điểm ban đầu, vẫn không thể lấy được điểm ban đầu. (Ví dụ, một kỹ thuật dễ dàng sẽ là thêm một vectơ ngẫu nhiên vào điểm ban đầu, nhưng nếu bạn làm điều này đủ thời gian, các điểm bị che khuất sẽ co cụm xung quanh điểm ban đầu.)
Sẽ thật tuyệt nếu các thuộc tính thống kê khác nhau được bảo tồn, mặc dù tôi không biết thuộc tính nào quan trọng ở giai đoạn này. Ví dụ, tôi muốn các điểm bị che khuất phân tán theo cách "tự nhiên" hơn là tích lũy vào lưới. Tuy nhiên, quyền riêng tư quan trọng hơn thế này.