Tôi đang cố gắng áp dụng ý tưởng thông tin lẫn nhau để lựa chọn tính năng, như được mô tả trong các ghi chú bài giảng này (trên trang 5).
Nền tảng của tôi là Matlab. Một vấn đề tôi tìm thấy khi tính toán thông tin lẫn nhau từ dữ liệu thực nghiệm là con số luôn bị sai lệch. Tôi đã tìm thấy khoảng 3 ~ 4 tệp khác nhau để tính MI trên Matlab Central và tất cả chúng đều cho số lượng lớn (như> 0,4) khi tôi cung cấp các biến ngẫu nhiên độc lập.
Tôi không phải là một chuyên gia, nhưng vấn đề dường như là nếu bạn chỉ đơn giản sử dụng mật độ khớp và biên để tính MI, thì độ lệch được đưa ra trong quy trình vì MI theo định nghĩa là dương. Có ai có lời khuyên thực tế về cách ước tính thông tin lẫn nhau một cách chính xác?
Một câu hỏi liên quan là, trong thực tế, làm thế nào để mọi người thực sự sử dụng MI để chọn các tính năng? Tôi không rõ ràng làm thế nào để đưa ra một giá trị ngưỡng vì lý thuyết MI không bị ràng buộc. Hay mọi người chỉ xếp hạng các tính năng theo MI và lấy các tính năng k hàng đầu?