Giả sử một tập hợp dữ liệu có cấu trúc lỏng lẻo (ví dụ: Bảng Web / Dữ liệu mở được liên kết), bao gồm nhiều nguồn dữ liệu. Không có lược đồ chung theo sau bởi dữ liệu và mỗi nguồn có thể sử dụng các thuộc tính từ đồng nghĩa để mô tả các giá trị (ví dụ: "quốc tịch" so với "sinh ra").
Mục tiêu của tôi là tìm một số thuộc tính "quan trọng" bằng cách nào đó "định nghĩa" các thực thể mà chúng mô tả. Vì vậy, khi tôi tìm thấy cùng một giá trị cho một thuộc tính như vậy, tôi sẽ biết rằng hai mô tả rất có thể về cùng một thực thể (ví dụ: cùng một người).
Ví dụ: thuộc tính "họ" có tính phân biệt đối xử cao hơn thuộc tính "quốc tịch".
Làm thế nào tôi có thể (theo thống kê) tìm thấy những thuộc tính quan trọng hơn những thuộc tính khác?
Một giải pháp ngây thơ sẽ là lấy IDF trung bình của các giá trị của từng thuộc tính và biến đây thành yếu tố "tầm quan trọng" của thuộc tính. Một cách tiếp cận tương tự sẽ là đếm xem có bao nhiêu giá trị riêng biệt xuất hiện cho mỗi thuộc tính.
Tôi đã thấy tính năng thuật ngữ hoặc lựa chọn thuộc tính trong học máy, nhưng tôi không muốn loại bỏ các thuộc tính còn lại, tôi chỉ muốn đặt trọng số cao hơn cho các thuộc tính quan trọng nhất.