Phần mềm ẩn danh dữ liệu


13

Có ai biết phần mềm ẩn danh dữ liệu tốt? Hoặc có lẽ một gói cho R mà ẩn danh dữ liệu? Rõ ràng là không mong đợi sự ẩn danh không thể bẻ khóa - chỉ muốn làm cho nó khó khăn.


6
Dữ liệu của bạn là gì và bạn muốn làm gì với dữ liệu ẩn danh?
Peter Smit

Câu trả lời:



8

Cảnh báo: lưu ý rằng rất khó để ẩn danh dữ liệu theo cách ngăn chặn nhận dạng lại (khử ẩn danh), mà không làm mất nhiều giá trị của dữ liệu. Đây không phải là một tình huống mà bạn chỉ có thể ném một phần mềm vào nó mà không cần suy nghĩ. Bảo vệ sự ẩn danh của mọi người đòi hỏi phải suy nghĩ cẩn thận. Xem, ví dụ, bài viết này để giải thích cẩn thận hơn về lý do tại sao điều này không tầm thường.

Một ví dụ về câu chuyện cảnh báo là thử thách Netflix, trong đó một bộ dữ liệu dường như được ẩn danh thực sự được liên kết lại với danh tính của người dùng Netflix - hoặc phát hành các hồ sơ tìm kiếm AOL ẩn danh, nhiều trong số đó (các nhà nghiên cứu phát hiện) vẫn có thể được liên kết lại với cá nhân thông qua phân tích tinh vi hơn. Một ví dụ khác là từ Massachusetts, nơi một ủy ban bảo hiểm y tế công bố dữ liệu về tất cả nhân viên nhà nước, sau khi ẩn danh nó bằng cách xóa tên, địa chỉ, SSN, v.v. Tuy nhiên, một nhà nghiên cứu bảo mật phát hiện ra rằng vẫn có thể xác định lại các cá nhânvà như một cuộc biểu tình, đã chỉ ra cách xác định hồ sơ sức khỏe của thống đốc. Sau đó, cô cho thấy, hầu hết mọi người có thể được xác định duy nhất từ ​​mã ZIP (hoặc điều tra dân số), ngày sinh và giới tính của họ. Đây là những câu chuyện về những người siêng năng ẩn danh dữ liệu; họ nghĩ rằng họ đã thực hiện tốt việc ẩn danh và chỉ không nhận ra vấn đề này khó đến mức nào. Những câu chuyện cảnh báo sẽ cho bạn tạm dừng.

Vì những lý do này, tôi không khuyến khích bạn cố gắng ẩn danh dữ liệu của bạn, nếu bạn không có kinh nghiệm trước đó trong lĩnh vực này.

Quan trọng: các kỹ thuật cần thiết để ẩn danh dữ liệu có thể sẽ phụ thuộc rất nhiều vào loại dữ liệu bạn có và miền ứng dụng bạn đang làm việc. Thật không may, bạn không cung cấp thông tin này. Do đó, gần như không thể cung cấp cho bạn lời khuyên tốt về cách ẩn danh dữ liệu của bạn.

Tôi tưởng tượng có thể rất hấp dẫn khi xem câu trả lời này là vô ích, bởi vì thay vì nói "hãy vui lên, đừng lo lắng, chỉ cần ném phần mềm kỳ diệu này vào dữ liệu của bạn và bạn không phải suy nghĩ", tôi đang nói " chờ đã, điều này khó hơn so với cái nhìn đầu tiên, hãy cẩn thận ". Tôi nhận ra tin nhắn này có thể không phổ biến lắm, nhưng tôi nghĩ đây là tin nhắn mọi người cần nghe.


5

Hãy nhìn vào các sdcMicro gói trên cran. Một trong những tác giả đã viết một bài báo mô tả vượt ra ngoài họa tiết đi kèm.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.