Làm thế nào để định lượng sự dư thừa của các tính năng?


10

Tôi có ba tính năng mà tôi sử dụng để giải quyết vấn đề phân loại. Ban đầu, các tính năng này tạo ra các giá trị boolean, vì vậy tôi có thể đánh giá sự dư thừa của chúng bằng cách xem xét các tập hợp phân loại tích cực và tiêu cực trùng nhau đến mức nào. Bây giờ tôi đã mở rộng các tính năng để tạo ra các giá trị thực (điểm số) thay vào đó và tôi muốn phân tích lại sự dư thừa của chúng, nhưng tôi hoàn toàn không biết làm thế nào để làm điều đó. Bất cứ ai có thể cung cấp cho tôi một con trỏ hoặc ý tưởng về cách đi về điều đó?

Tôi biết câu hỏi này rất mơ hồ, đó là bởi vì tôi không nắm bắt được các số liệu thống kê rất mạnh. Vì vậy, nếu bạn không có câu trả lời cho tôi, có thể bạn có một số câu hỏi có thể giúp tôi hiểu rõ hơn về bản thân mình.

Chỉnh sửa: Tôi hiện đang duyệt Wikipedia về chủ đề này, tôi có cảm giác rằng những gì tôi muốn là một hệ số tương quan, nhưng tôi vẫn không chắc liệu đây có phải là phương pháp phù hợp hay không, và hệ số nào trong số nhiều hệ số khả dụng là phù hợp.

Chỉnh sửa 2: Trong trường hợp boolean, lần đầu tiên tôi tạo cho mỗi tính năng tập hợp các mẫu mà nó là đúng. Sau đó, mối tương quan giữa hai tính năng là kích thước giao nhau của các bộ này so với kích thước hợp nhất của các bộ này. Nếu giá trị này là 1, chúng hoàn toàn dư thừa, vì luôn luôn giống nhau. Nếu là 0, chúng không bao giờ giống nhau.


nó sẽ giúp ích nếu bạn cung cấp ví dụ về cách bạn xác định dự phòng trong trường hợp boolean và loại kết quả bạn mong đợi trong trường hợp liên tục
mpiktas

@mpiktas: Chỉnh sửa câu hỏi của tôi để phản hồi bình luận của bạn.
Bjorn Pollex

Câu trả lời:


4

Điều này nghe có vẻ như là một vấn đề về lựa chọn tính năng, nếu đây là trường hợp, tôi nghĩ bạn muốn tính toán thông tin lẫn nhau giữa tất cả các tập hợp con của tính năng và đầu ra phân loại. Tập hợp con có thông tin lẫn nhau cao nhất sẽ là tập hợp các tính năng chứa nhiều "thông tin" nhất về phân loại kết quả của bản ghi.

Nếu bạn chỉ có 3 tính năng, bạn có thể tính toán tất cả các tập hợp con có thể trong một khoảng thời gian hợp lý, nếu bộ tính năng của bạn phát triển lớn hơn, bạn sẽ phải ước tính điều này (thường sử dụng cách tiếp cận tham lam: thực hiện tính năng với MI cao nhất ở mỗi bước ).


2
(+1) cho thông tin lẫn nhau. Nhận xét bổ sung: a) Tôi đề nghị Thông tin Đạt được là trường hợp đặc biệt của thông tin lẫn nhau. b) Lựa chọn tính năng tự động sẽ không chỉ loại bỏ dư thừa mà còn tất cả các tính năng có tác động tiêu cực đến phân biệt đối xử lớp.
steffen

Cảm ơn! Điều này nghe có vẻ rất hứa hẹn, tôi sẽ xem xét nó.
Bjorn Pollex
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.