Có ai biết phần mềm ẩn danh dữ liệu tốt? Hoặc có lẽ một gói cho R mà ẩn danh dữ liệu? Rõ ràng là không mong đợi sự ẩn danh không thể bẻ khóa - chỉ muốn làm cho nó khó khăn.
Có ai biết phần mềm ẩn danh dữ liệu tốt? Hoặc có lẽ một gói cho R mà ẩn danh dữ liệu? Rõ ràng là không mong đợi sự ẩn danh không thể bẻ khóa - chỉ muốn làm cho nó khó khăn.
Câu trả lời:
Các Cornell Ẩn danh Toolkit là mã nguồn mở. Trang nghiên cứu của họ có liên kết đến các ấn phẩm liên quan.
Cảnh báo: lưu ý rằng rất khó để ẩn danh dữ liệu theo cách ngăn chặn nhận dạng lại (khử ẩn danh), mà không làm mất nhiều giá trị của dữ liệu. Đây không phải là một tình huống mà bạn chỉ có thể ném một phần mềm vào nó mà không cần suy nghĩ. Bảo vệ sự ẩn danh của mọi người đòi hỏi phải suy nghĩ cẩn thận. Xem, ví dụ, bài viết này để giải thích cẩn thận hơn về lý do tại sao điều này không tầm thường.
Một ví dụ về câu chuyện cảnh báo là thử thách Netflix, trong đó một bộ dữ liệu dường như được ẩn danh thực sự được liên kết lại với danh tính của người dùng Netflix - hoặc phát hành các hồ sơ tìm kiếm AOL ẩn danh, nhiều trong số đó (các nhà nghiên cứu phát hiện) vẫn có thể được liên kết lại với cá nhân thông qua phân tích tinh vi hơn. Một ví dụ khác là từ Massachusetts, nơi một ủy ban bảo hiểm y tế công bố dữ liệu về tất cả nhân viên nhà nước, sau khi ẩn danh nó bằng cách xóa tên, địa chỉ, SSN, v.v. Tuy nhiên, một nhà nghiên cứu bảo mật phát hiện ra rằng vẫn có thể xác định lại các cá nhânvà như một cuộc biểu tình, đã chỉ ra cách xác định hồ sơ sức khỏe của thống đốc. Sau đó, cô cho thấy, hầu hết mọi người có thể được xác định duy nhất từ mã ZIP (hoặc điều tra dân số), ngày sinh và giới tính của họ. Đây là những câu chuyện về những người siêng năng ẩn danh dữ liệu; họ nghĩ rằng họ đã thực hiện tốt việc ẩn danh và chỉ không nhận ra vấn đề này khó đến mức nào. Những câu chuyện cảnh báo sẽ cho bạn tạm dừng.
Vì những lý do này, tôi không khuyến khích bạn cố gắng ẩn danh dữ liệu của bạn, nếu bạn không có kinh nghiệm trước đó trong lĩnh vực này.
Quan trọng: các kỹ thuật cần thiết để ẩn danh dữ liệu có thể sẽ phụ thuộc rất nhiều vào loại dữ liệu bạn có và miền ứng dụng bạn đang làm việc. Thật không may, bạn không cung cấp thông tin này. Do đó, gần như không thể cung cấp cho bạn lời khuyên tốt về cách ẩn danh dữ liệu của bạn.
Tôi tưởng tượng có thể rất hấp dẫn khi xem câu trả lời này là vô ích, bởi vì thay vì nói "hãy vui lên, đừng lo lắng, chỉ cần ném phần mềm kỳ diệu này vào dữ liệu của bạn và bạn không phải suy nghĩ", tôi đang nói " chờ đã, điều này khó hơn so với cái nhìn đầu tiên, hãy cẩn thận ". Tôi nhận ra tin nhắn này có thể không phổ biến lắm, nhưng tôi nghĩ đây là tin nhắn mọi người cần nghe.
Một cách tiếp cận là sử dụng bộ lọc Bloom. Kiểm tra trang web dự án SAFELINK để biết các chương trình bằng Java và Python. Phương pháp giải thích giấy là ở đây .
Ngoài ra còn có một cách tiếp cận thú vị để ẩn danh các chuỗi trong bối cảnh liên kết bản ghi bằng n-gram được phát triển bởi ANU Data Mining Group . Bài viết với mô tả và mã Python mẫu có sẵn ở đây .