Tôi quan tâm đến việc liên kết các bản ghi trên 2 tập dữ liệu theo tên, họ và năm sinh. Điều này có thể thực hiện được với thuật toán EM, và nếu vậy, làm thế nào?
Hãy xem xét bản ghi sau trong phần 1 làm ví dụ: Carl McCarthy, 1967. Tôi sẽ tìm kiếm thông qua tất cả các bản ghi trong tập dữ liệu thứ 2 và chỉ định khoảng cách jaro-winkler giữa tên thứ 1 và Carl và khoảng cách jaro-winkler giữa tên cuối cùng và McCarthy. Những khoảng cách này là xác suất cũng như khoảng cách giữa các năm sinh. Chúng tôi kết hợp 3 xác suất đó (nhân? Trung bình?) Thành 1.
Bây giờ đến phần quy tắc quyết định. Hãy để chúng tôi xếp hạng tất cả các xác suất từ cao nhất đến thấp nhất. Đầu tiên, chúng tôi muốn P (lần truy cập đầu tiên là khớp)> = ngưỡng. Thứ hai, chúng tôi cũng muốn P (lần truy cập đầu tiên là khớp) / P (lần truy cập thứ hai là khớp)> = ngưỡng nếu P (lần truy cập thứ hai là khớp) tồn tại. Thứ ba, chúng tôi muốn lần truy cập đầu tiên trong bộ dữ liệu thứ hai này khớp với không quá 1 người trong tập dữ liệu thứ nhất với Carl McCarthy, 1967.
Làm thế nào những ngưỡng này có thể được xác định?
Tôi thích cách tiếp cận trong Stata và / hoặc Perl.
Xem, ví dụ:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(Mặc dù với điều đó, tôi vẫn không hoàn toàn làm theo lý do tại sao hoặc như thế nào, và đầu vào và đầu ra là gì, cũng như các giả định và mức độ hạn chế của chúng).