Tôi có ba tính năng mà tôi sử dụng để giải quyết vấn đề phân loại. Ban đầu, các tính năng này tạo ra các giá trị boolean, vì vậy tôi có thể đánh giá sự dư thừa của chúng bằng cách xem xét các tập hợp phân loại tích cực và tiêu cực trùng nhau đến mức nào. Bây giờ tôi đã mở rộng các tính năng để tạo ra các giá trị thực (điểm số) thay vào đó và tôi muốn phân tích lại sự dư thừa của chúng, nhưng tôi hoàn toàn không biết làm thế nào để làm điều đó. Bất cứ ai có thể cung cấp cho tôi một con trỏ hoặc ý tưởng về cách đi về điều đó?
Tôi biết câu hỏi này rất mơ hồ, đó là bởi vì tôi không nắm bắt được các số liệu thống kê rất mạnh. Vì vậy, nếu bạn không có câu trả lời cho tôi, có thể bạn có một số câu hỏi có thể giúp tôi hiểu rõ hơn về bản thân mình.
Chỉnh sửa: Tôi hiện đang duyệt Wikipedia về chủ đề này, tôi có cảm giác rằng những gì tôi muốn là một hệ số tương quan, nhưng tôi vẫn không chắc liệu đây có phải là phương pháp phù hợp hay không, và hệ số nào trong số nhiều hệ số khả dụng là phù hợp.
Chỉnh sửa 2: Trong trường hợp boolean, lần đầu tiên tôi tạo cho mỗi tính năng tập hợp các mẫu mà nó là đúng. Sau đó, mối tương quan giữa hai tính năng là kích thước giao nhau của các bộ này so với kích thước hợp nhất của các bộ này. Nếu giá trị này là 1, chúng hoàn toàn dư thừa, vì luôn luôn giống nhau. Nếu là 0, chúng không bao giờ giống nhau.