Các thực tiễn tốt nhất để ẩn danh tên người dùng trong dữ liệu là gì?


8

Tôi đang làm việc trong một dự án yêu cầu các sinh viên chia sẻ dữ liệu văn bản gốc của họ để phân tích thêm bằng các kỹ thuật khai thác dữ liệu, và, tôi nghĩ rằng sẽ phù hợp để ẩn danh tên sinh viên với bài nộp của họ.

Đặt các giải pháp tốt hơn của một url nơi sinh viên gửi công việc của họ và tập lệnh phụ trợ chèn ID ẩn danh, Tôi có thể hướng dẫn sinh viên thực hiện các giải pháp nào để họ tự ẩn danh?

Tôi vẫn là một người mới trong lĩnh vực này. Tôi không biết các tiêu chuẩn là gì. Tôi đã nghĩ rằng giải pháp có thể là một thuật toán băm. Nghe có vẻ là một giải pháp tốt hơn so với việc tạo ra một tên giả vì hai người có thể chọn cùng một tên giả. Những người có thể có thể chọn cùng một tên giả. Một số mối quan tâm tôi nên nhận thức là gì?


2
Tại sao lại thu thập tên?
Emre

Các bản ghi cần phải là duy nhất và mọi người đều biết tên của chính họ (nghe có vẻ mỉa mai, nhưng đó chỉ là sự đơn giản).
xtian

Câu trả lời:


5

Tôi nghi ngờ bạn đang sử dụng tên như định danh. Bạn không nên; chúng không phải là duy nhất và chúng nêu ra vấn đề riêng tư này. Thay vào đó, hãy sử dụng số sinh viên của họ, mà bạn có thể xác minh từ ID của họ, được lưu trữ ở dạng băm. Sử dụng họ của học sinh như một muối, để đo lường tốt (tạo thành chuỗi được băm bằng cách ghép số ID và tên cuối cùng).


Tôi nhận được điểm, nhưng để rõ ràng, có vẻ như bạn đang trộn hai tùy chọn. Đầu tiên là tùy chọn lấy ID sinh viên cùng với tên, có thể là duy nhất và hơi khó hiểu đối với bất kỳ ai lấy dữ liệu từ internet. Cộng với tùy chọn thứ hai để lấy ID + Lname được mã hóa này và cũng có tùy chọn đó. Cộng với một biện pháp nữa để sử dụng một loại muối của họ của họ. Nói cách khác, máy tính trước tôi tưởng tượng ID + Lname có thể là một obfuscation chấp nhận được?
xtian

Không, tôi không nói lấy mã PIN và tên; chỉ cần mã PIN, vì nó đã là duy nhất. Sử dụng tên cuối cùng là muối chỉ là một gợi ý; bạn có thể sử dụng bất kỳ thông tin cụ thể của người dùng.
Emre

2

Một thực hành tiêu chuẩn trong tâm lý học (nơi bạn muốn mã hóa người tham gia để liên kết các phép đo khác nhau với nhau) là để người tham gia chọn tên viết tắt và ngày sinh của mẹ họ, ví dụ, theo định dạng XX-YYMMDD.

Điều này nếu khóa học vẫn có thể chạy vào xung đột. Sau đó, một lần nữa, tôi không nghĩ rằng có bất kỳ thuật toán ẩn danh không xung đột chắc chắn mà các sinh viên của bạn có thể làm mà không cần biết tất cả các sinh viên khác . Tên và ngày sinh của các bà mẹ có thể giống hệt nhau, ngày sinh của họ có thể giống hệt nhau, cỡ giày có thể là nhân vật siêu anh hùng yêu thích ... Điều duy nhất tôi có thể nghĩ đến là số An sinh xã hội (Hoa Kỳ), nhưng bạn thực sự không muốn sử dụng chúng .

Dòng dưới cùng: ẩn danh trên phụ trợ. Hoặc, như @Emre gợi ý , hãy suy nghĩ xem bạn có thực sự cần một định danh hay không. Có lẽ chỉ số do DB tạo ra là đủ?


Tôi đã không nhận thức được những kế hoạch đặt tên thay thế. Cảm ơn bạn. Về vấn đề xung đột, một câu trả lời bỏ phiếu cao trên SO cho thấy điều này về SHA-1, "Để giải quyết nghịch lý sinh nhật, một cơ sở dữ liệu với 10 ^ 18 (một triệu triệu triệu đồng) có khả năng xảy ra khoảng 1 trong 0,000000000000003 vụ va chạm. "
xtian
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.