Sử dụng thuật toán EM để liên kết bản ghi


9

Tôi quan tâm đến việc liên kết các bản ghi trên 2 tập dữ liệu theo tên, họ và năm sinh. Điều này có thể thực hiện được với thuật toán EM, và nếu vậy, làm thế nào?

Hãy xem xét bản ghi sau trong phần 1 làm ví dụ: Carl McCarthy, 1967. Tôi sẽ tìm kiếm thông qua tất cả các bản ghi trong tập dữ liệu thứ 2 và chỉ định khoảng cách jaro-winkler giữa tên thứ 1 và Carl và khoảng cách jaro-winkler giữa tên cuối cùng và McCarthy. Những khoảng cách này là xác suất cũng như khoảng cách giữa các năm sinh. Chúng tôi kết hợp 3 xác suất đó (nhân? Trung bình?) Thành 1.

Bây giờ đến phần quy tắc quyết định. Hãy để chúng tôi xếp hạng tất cả các xác suất từ ​​cao nhất đến thấp nhất. Đầu tiên, chúng tôi muốn P (lần truy cập đầu tiên là khớp)> = ngưỡng. Thứ hai, chúng tôi cũng muốn P (lần truy cập đầu tiên là khớp) / P (lần truy cập thứ hai là khớp)> = ngưỡng nếu P (lần truy cập thứ hai là khớp) tồn tại. Thứ ba, chúng tôi muốn lần truy cập đầu tiên trong bộ dữ liệu thứ hai này khớp với không quá 1 người trong tập dữ liệu thứ nhất với Carl McCarthy, 1967.

Làm thế nào những ngưỡng này có thể được xác định?

Tôi thích cách tiếp cận trong Stata và / hoặc Perl.

Xem, ví dụ:

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf

(Mặc dù với điều đó, tôi vẫn không hoàn toàn làm theo lý do tại sao hoặc như thế nào, và đầu vào và đầu ra là gì, cũng như các giả định và mức độ hạn chế của chúng).


Bạn đã nghĩ về việc sử dụng reclink trong Stata?
Dimitriy V. Masterov

Câu trả lời:


4

Hoàn toàn, thuật toán EM đã được sử dụng để liên kết xác suất. Có rất nhiều bài viết về chủ đề này, sau đây của Winkler có thể hữu ích về các chi tiết lý thuyết:

http://www.cencies.gov.edgekey.net/srd/ con / pdf / rr2000-05.pdf

Ngoài ra còn có phần mềm liên kết dữ liệu được phát triển bởi Kevin Campbell đã có sẵn ở đây:

http://the-link-king.com/

Phần mềm có thể được tải xuống miễn phí & Kevin Campbell cung cấp hỗ trợ có tính phí. Mã được viết bằng SAS, vì vậy bạn sẽ cần gói cơ sở SAS.


Cảm ơn bạn! Tôi đã đọc 2 bài báo của Winkler nhưng không hiểu hết về chúng. Tôi thu thập EM từ tờ giấy đó. Ngoài ra, tôi không biết cách sử dụng SAS. Tôi biết perl có một mô-đun EM, mà tôi sẽ sử dụng, nhưng tôi không chắc tại sao EM phù hợp hoặc làm thế nào để sử dụng nó. Về mặt khái niệm, EM trả lời các câu hỏi trên như thế nào?
dùng1690130

Tôi hiểu rằng thuật toán EM rất hữu ích để mô hình hóa khả năng của kết quả trùng khớp vì nó tính đến xác suất không xác định (hoặc "tiềm ẩn") của việc liên kết không chính xác hai bản ghi khác nhau hoặc không liên kết không chính xác hai bản ghi khớp. Ước tính các xác suất này được tinh chỉnh trong mỗi bước của thuật toán để tối đa hóa hàm khả năng.
RobertF

Tôi cung cấp đầu vào gì? Các thăm dò đơn biến và một nhãn? Và nó phun ra trận đấu tối ưu?
dùng1690130

0

Có một phần mềm RELAIS ghi lại liên kết với:

6) Liên kết bản ghi xác suất (Ước tính các tham số mô hình Fellegi và Sunter thông qua EM (Kỳ vọng tối đa hóa).

RELAIS đã được triển khai trong Java và R và có kiến ​​trúc cơ sở dữ liệu (MySQL).

Có một số tài liệu khác về liên kết hồ sơ có sẵn từ dự án Tích hợp dữ liệu ESSnet .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.