Sử dụng thông tin lẫn nhau để ước tính mối tương quan giữa một biến liên tục và biến phân loại

Đối với tiêu đề, ý tưởng là sử dụng thông tin lẫn nhau, ở đây và sau MI, để ước tính "tương quan" (được định nghĩa là "tôi biết bao nhiêu về A khi tôi biết B") giữa một biến liên tục và biến phân loại. Tôi sẽ cho bạn biết suy nghĩ của tôi về vấn đề này ngay lập tức, nhưng trước khi tôi khuyên bạn nên đọc câu hỏi / câu trả lời khác này trên CrossValidated vì nó chứa một số thông tin hữu ích.

Bây giờ, vì chúng ta không thể tích hợp trên một biến phân loại, chúng ta cần phân biệt biến liên tục. Điều này có thể được thực hiện khá dễ dàng trong R, đó là ngôn ngữ tôi đã thực hiện hầu hết các phân tích của mình. Tôi thích sử dụng cuthàm này, vì nó cũng bí danh các giá trị, nhưng các tùy chọn khác cũng có sẵn. Vấn đề là, người ta phải quyết định một tiên nghiệm số lượng "thùng" (trạng thái riêng biệt) trước khi bất kỳ sự rời rạc nào có thể được thực hiện.

Tuy nhiên, vấn đề chính là một vấn đề khác: MI dao động từ 0 đến, vì đây là thước đo không đạt tiêu chuẩn mà đơn vị là bit. Điều đó làm cho rất khó sử dụng nó như là một hệ số tương quan. Điều này có thể được giải quyết một phần bằng hệ số tương quan toàn cầu , ở đây và sau GCC, đây là phiên bản tiêu chuẩn của MI; GCC được định nghĩa như sau:

nhập mô tả hình ảnh ở đây

Tham khảo: công thức lấy từ Thông tin lẫn nhau như một công cụ phi tuyến tính để phân tích toàn cầu hóa thị trường chứng khoán của Andreia Dionísio, Rui Menezes & Diana Mendes, 2010.

GCC nằm trong khoảng từ 0 đến 1, và do đó có thể dễ dàng được sử dụng để ước tính mối tương quan giữa hai biến. Vấn đề được giải quyết, phải không? Vâng, loại. Bởi vì tất cả quá trình này phụ thuộc rất nhiều vào số lượng 'thùng', chúng tôi đã quyết định sử dụng trong quá trình rời rạc. Đây là kết quả thí nghiệm của tôi:

nhập mô tả hình ảnh ở đây

Trên trục y bạn có GCC và trên trục x bạn có số lượng 'thùng' tôi quyết định sử dụng để phân biệt. Hai dòng đề cập đến hai phân tích khác nhau mà tôi đã tiến hành trên hai bộ dữ liệu khác nhau (mặc dù rất giống nhau).

Dường như với tôi rằng việc sử dụng MI nói chung và GCC nói riêng vẫn còn gây tranh cãi. Tuy nhiên, sự nhầm lẫn này có thể là kết quả của một sai lầm từ phía tôi. Dù thế nào đi nữa, tôi rất muốn nghe ý kiến của bạn về vấn đề này (ngoài ra, bạn có phương pháp nào khác để ước tính mối tương quan giữa một biến phân loại và một biến liên tục không?).

correlation information-theory mutual-information

— Edgar Derby
nguồn

Tôi không thể nhận xét về việc tính toán thông tin lẫn nhau để phân phối chung các biến liên tục và rời rạc, nhưng tôi có thể đề xuất rằng nên loại bỏ ảnh hưởng của việc tạo thùng nếu bạn tính toán một biến thể thông tin lẫn nhau được chuẩn hóa. Thông thường một bình thường hóa bằng tổng các entropy hoặc bởi entropy chung. Sum của entropy là một chút tốt hơn bởi vì

H (X_{i}, X_{j}) \leq H (X_{i}) + H (X_{j})

$H(X_i, X_j) \leq H(X_i) + H(X_j)$

— Jessica Collins

BTW, đây là mã trong trường hợp bất cứ ai muốn thử phương pháp tạo thùng.

— zkurtz

Bạn không ước tính "tương quan". Bạn đang ước tính thông tin lẫn nhau. Người này không ước tính người kia; chúng là những biện pháp riêng biệt của khái niệm hiệp hội tổng quát hơn .

— zkurtz

Có lẽ một tiêu đề tốt hơn cho bài đăng này là "Làm thế nào để bin tốt nhất một biến liên tục để ước tính thông tin lẫn nhau của nó với một biến phân loại?"

— zkurtz

Đây là một cách tiếp cận không binning thú vị. Thật không may, tôi không thể tìm thấy một triển khai R.

— zkurtz

Có một cách đơn giản và tốt hơn để giải quyết vấn đề này. Một biến phân loại thực sự chỉ là một tập hợp các biến chỉ báo. Một ý tưởng cơ bản của lý thuyết đo lường là một biến như vậy là bất biến đối với các loại, vì vậy sẽ không có ý nghĩa khi sử dụng nhãn số của các loại trong bất kỳ thước đo nào về mối quan hệ giữa một biến khác (ví dụ: 'tương quan') . Vì lý do này, và đo lường mối quan hệ giữa một biến liên tục và biến phân loại nên hoàn toàn dựa trên các biến chỉ báo xuất phát từ biến sau.

$X$ $I$ $\phi \equiv \mathbb{P}(I=1)$

C o v (I, X) = E (I X) - E (I) E (X) = ϕ [E (X | I = 1) - E (X)],

$\mathbb{Cov}(I,X) = \mathbb{E}(IX) - \mathbb{E}(I) \mathbb{E}(X) = \phi \left[ \mathbb{E}(X|I=1) - \mathbb{E}(X) \right] ,$

cung cấp cho:

C o r r (I, X) = \sqrt{\frac{ϕ}{1 - ϕ}} \cdot \frac{E (X | I = 1) - E (X)}{S (X)} .

$\mathbb{Corr}(I,X) = \sqrt{\frac{\phi}{1-\phi}} \cdot \frac{\mathbb{E}(X|I=1) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

$X$ $I$ $\phi$ $X$ $I=1$

$C$ $1, ..., m$ $C=k$ $I_k \equiv \mathbb{I}(C=k)$

C o r r (I_{k}, X) = \sqrt{\frac{ϕ_{k}}{1 - ϕ_{k}}} \cdot \frac{E (X | C = k) - E (X)}{S (X)} .

$\mathbb{Corr}(I_k,X) = \sqrt{\frac{\phi_k}{1-\phi_k}} \cdot \frac{\mathbb{E}(X|C=k) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

$\mathbb{Corr}(C,X) \equiv (\mathbb{Corr}(I_1,X), ..., \mathbb{Corr}(I_m,X))$

$\sum_k \mathbb{Cov}(I_k,X) = 0$ $X$ $m-1$

$(x_1, c_1), ..., (x_n, c_n)$ chúng ta có thể ước tính các phần của phương trình tương quan là:

{\hat{ϕ}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} I (c_{i} = k) .

$\hat{\phi}_k \equiv \frac{1}{n} \sum_{i=1}^n \mathbb{I}(c_i=k).$

\hat{E} (X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} .

$\hat{\mathbb{E}}(X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i=1}^n x_i.$

\hat{E} (X | C = k) \equiv {\bar{x}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} I (c_{i} = k) / {\hat{ϕ}}_{k} .

$\hat{\mathbb{E}}(X|C=k) \equiv \bar{x}_k \equiv \frac{1}{n} \sum_{i=1}^n x_i \mathbb{I}(c_i=k) \Bigg/ \hat{\phi}_k .$

\hat{S} (X) \equiv s_{X} \equiv \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} .

$\hat{\mathbb{S}}(X) \equiv s_X \equiv \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2}.$

$X$ thì bạn có thể ước tính trực tiếp vectơ tương quan theo khả năng tối đa hoặc một số kỹ thuật khác.

— Phục hồi Monica
nguồn