Đối với tiêu đề, ý tưởng là sử dụng thông tin lẫn nhau, ở đây và sau MI, để ước tính "tương quan" (được định nghĩa là "tôi biết bao nhiêu về A khi tôi biết B") giữa một biến liên tục và biến phân loại. Tôi sẽ cho bạn biết suy nghĩ của tôi về vấn đề này ngay lập tức, nhưng trước khi tôi khuyên bạn nên đọc câu hỏi / câu trả lời khác này trên CrossValidated vì nó chứa một số thông tin hữu ích.
Bây giờ, vì chúng ta không thể tích hợp trên một biến phân loại, chúng ta cần phân biệt biến liên tục. Điều này có thể được thực hiện khá dễ dàng trong R, đó là ngôn ngữ tôi đã thực hiện hầu hết các phân tích của mình. Tôi thích sử dụng cut
hàm này, vì nó cũng bí danh các giá trị, nhưng các tùy chọn khác cũng có sẵn. Vấn đề là, người ta phải quyết định một tiên nghiệm số lượng "thùng" (trạng thái riêng biệt) trước khi bất kỳ sự rời rạc nào có thể được thực hiện.
Tuy nhiên, vấn đề chính là một vấn đề khác: MI dao động từ 0 đến, vì đây là thước đo không đạt tiêu chuẩn mà đơn vị là bit. Điều đó làm cho rất khó sử dụng nó như là một hệ số tương quan. Điều này có thể được giải quyết một phần bằng hệ số tương quan toàn cầu , ở đây và sau GCC, đây là phiên bản tiêu chuẩn của MI; GCC được định nghĩa như sau:
Tham khảo: công thức lấy từ Thông tin lẫn nhau như một công cụ phi tuyến tính để phân tích toàn cầu hóa thị trường chứng khoán của Andreia Dionísio, Rui Menezes & Diana Mendes, 2010.
GCC nằm trong khoảng từ 0 đến 1, và do đó có thể dễ dàng được sử dụng để ước tính mối tương quan giữa hai biến. Vấn đề được giải quyết, phải không? Vâng, loại. Bởi vì tất cả quá trình này phụ thuộc rất nhiều vào số lượng 'thùng', chúng tôi đã quyết định sử dụng trong quá trình rời rạc. Đây là kết quả thí nghiệm của tôi:
Trên trục y bạn có GCC và trên trục x bạn có số lượng 'thùng' tôi quyết định sử dụng để phân biệt. Hai dòng đề cập đến hai phân tích khác nhau mà tôi đã tiến hành trên hai bộ dữ liệu khác nhau (mặc dù rất giống nhau).
Dường như với tôi rằng việc sử dụng MI nói chung và GCC nói riêng vẫn còn gây tranh cãi. Tuy nhiên, sự nhầm lẫn này có thể là kết quả của một sai lầm từ phía tôi. Dù thế nào đi nữa, tôi rất muốn nghe ý kiến của bạn về vấn đề này (ngoài ra, bạn có phương pháp nào khác để ước tính mối tương quan giữa một biến phân loại và một biến liên tục không?).