Thông tin lẫn nhau so với tương quan

51

Tại sao và khi nào chúng ta nên sử dụng Thông tin lẫn nhau trên các phép đo tương quan thống kê như "Pearson", "spearman" hoặc "Kendall's tau"?

correlation mathematical-statistics mutual-information

— SaZa
nguồn

77

Chúng ta hãy xem xét một khái niệm cơ bản về tương quan (tuyến tính), hiệp phương sai (là hệ số tương quan của Pearson "không chuẩn hóa"). Đối với hai biến ngẫu nhiên và rời rạc với các hàm khối xác suất , và pmf chúng ta có $X$ $Y$ $p(x)$ $p(y)$ $p(x,y)$

Cov (X, Y) = E (X Y) - E (X) E (Y) = \sum_{x, y} p (x, y) x y - (\sum_{x} p (x) x) \cdot (\sum_{y} p (y) y)

$\operatorname{Cov}(X,Y) = E(XY) - E(X)E(Y) = \sum_{x,y}p(x,y)xy - \left(\sum_xp(x)x\right)\cdot \left(\sum_yp(y)y\right)$

\Rightarrow Cov (X, Y) = \sum_{x, y} [p (x, y) - p (x) p (y)] x y

$\Rightarrow \operatorname{Cov}(X,Y) = \sum_{x,y}\left[p(x,y)-p(x)p(y)\right]xy$

Thông tin lẫn nhau giữa hai người được định nghĩa là

I (X, Y) = E (\ln \frac{p (x, y)}{p (x) p (y)}) = \sum_{x, y} p (x, y) [\ln p (x, y) - \ln p (x) p (y)]

$I(X,Y) = E\left (\ln \frac{p(x,y)}{p(x)p(y)}\right)=\sum_{x,y}p(x,y)\left[\ln p(x,y)-\ln p(x)p(y)\right]$

So sánh hai: mỗi cái chứa một "thước đo" thông minh về "khoảng cách của hai rv 'từ sự độc lập" vì nó được biểu thị bằng khoảng cách của pmf chung từ sản phẩm của pmf cận biên: có sự khác biệt về mức độ, trong khi có sự khác biệt của logarit. $\operatorname{Cov}(X,Y)$ $I(X,Y)$

Và những biện pháp này làm gì? Trong họ tạo ra tổng trọng số của sản phẩm của hai biến ngẫu nhiên. Trong họ tạo ra tổng trọng số của xác suất chung. $\operatorname{Cov}(X,Y)$ $I(X,Y)$

Vì vậy, với chúng tôi xem xét việc không độc lập làm gì với sản phẩm của họ, trong khi ở chúng tôi xem xét việc không độc lập làm gì với phân phối xác suất chung của họ. $\operatorname{Cov}(X,Y)$ $I(X,Y)$

Ngược lại, là giá trị trung bình của thước đo logarit của khoảng cách từ độc lập, trong khi là giá trị trọng số của các mức đo khoảng cách từ độc lập, được cân bằng bởi sản phẩm của hai rv. $I(X,Y)$ $\operatorname{Cov}(X,Y)$

Vì vậy, cả hai không phải là đối kháng, chúng là bổ sung, mô tả các khía cạnh khác nhau của sự liên kết giữa hai biến ngẫu nhiên. Người ta có thể nhận xét rằng Thông tin lẫn nhau "không quan tâm" cho dù liên kết có tuyến tính hay không, trong khi Hiệp phương sai có thể bằng 0 và các biến vẫn có thể phụ thuộc ngẫu nhiên. Mặt khác, Hiệp phương sai có thể được tính trực tiếp từ một mẫu dữ liệu mà không cần thực sự biết các phân phối xác suất liên quan (vì đó là biểu thức liên quan đến các khoảnh khắc của phân phối), trong khi Thông tin lẫn nhau đòi hỏi kiến thức về các phân phối, nếu ước tính chưa biết, là một công việc tinh tế và không chắc chắn hơn nhiều so với ước tính của Hiệp phương sai.

— Alecos Papadopoulos
nguồn

@ Alecos Papadopoulos; Cảm ơn câu trả lời toàn diện của bạn.

— SaZa

1

Tôi đã tự hỏi mình câu hỏi tương tự nhưng tôi chưa hoàn toàn hiểu câu trả lời. @ Alecos Papadopoulos: Tôi hiểu rằng sự phụ thuộc đo được không giống nhau, được thôi. Vậy đối với loại quan hệ nào giữa X và Y, chúng ta nên thích thông tin lẫn nhau I (X, Y) hơn là Cov (X, Y)? Tôi đã có một ví dụ kỳ lạ gần đây khi Y gần như phụ thuộc tuyến tính vào X (nó gần như là một đường thẳng trong một biểu đồ phân tán) và Corr (X, Y) bằng 0,87 trong khi tôi (X, Y) bằng 0,45 . Vì vậy, rõ ràng có một số trường hợp nên chọn một chỉ số so với chỉ số khác? Cảm ơn đã giúp đỡ!

— Gandhi91

@ Gandhi91 entropy của , trong trường hợp cụ thể này là gì?

X

$X$

H (X)

$H(X)$

— Alecos Papadopoulos

Đây là một câu trả lời tuyệt vời và rất rõ ràng. Tôi đã tự hỏi nếu bạn có một ví dụ có sẵn trong đó cov là 0, nhưng pmi thì không.

— thang

@thang. Không hẳn vậy. Người ta có thể tìm thấy một ví dụ trong đó hiệp phương sai bằng 0 và đồng thời có sẵn phân phối chung, để tính toán thông tin lẫn nhau (và phân phối chung sẽ không phải là sản phẩm của các biên, vì chúng tôi muốn các biến không phải là độc lập).

— Alecos Papadopoulos

7

Thông tin lẫn nhau là khoảng cách giữa hai phân phối xác suất. Tương quan là một khoảng cách tuyến tính giữa hai biến ngẫu nhiên.

Bạn có thể có thông tin lẫn nhau giữa hai xác suất bất kỳ được xác định cho một tập hợp các biểu tượng, trong khi bạn không thể có mối tương quan giữa các biểu tượng không thể được ánh xạ một cách tự nhiên vào không gian R ^ N.

Mặt khác, thông tin lẫn nhau không đưa ra các giả định về một số thuộc tính của các biến ... Nếu bạn đang làm việc với các biến trơn tru, mối tương quan có thể cho bạn biết thêm về chúng; ví dụ nếu mối quan hệ của họ là đơn điệu.

Nếu bạn có một số thông tin trước, thì bạn có thể chuyển từ cái này sang cái khác; trong hồ sơ bệnh án, bạn có thể ánh xạ các ký hiệu "có kiểu gen A" là 1 và "không có kiểu gen A" thành các giá trị 0 và 1 và xem liệu điều này có một số dạng tương quan với bệnh này hay bệnh khác. Tương tự, bạn có thể lấy một biến liên tục (ví dụ: tiền lương), chuyển đổi nó thành các danh mục riêng biệt và tính toán thông tin lẫn nhau giữa các danh mục đó và một bộ ký hiệu khác.

— Pau Vilimelis Aceituno
nguồn

Tương quan không phải là một hàm tuyến tính. Có nên nói rằng mối tương quan là thước đo mối quan hệ tuyến tính giữa các biến ngẫu nhiên?

— Matthew Gunn

1

Tôi nghĩ thế này: "Bạn có thể có thông tin lẫn nhau giữa hai xác suất bất kỳ được xác định cho một tập hợp các biểu tượng, trong khi bạn không thể có mối tương quan giữa các biểu tượng không thể được ánh xạ tự nhiên vào không gian R ^ N" có lẽ là chìa khóa. Corr không có nghĩa nếu bạn không có một biến ngẫu nhiên hoàn toàn; tuy nhiên, pmi có ý nghĩa ngay cả với chỉ pdf và sigma (khoảng trắng). Đây là lý do tại sao trong nhiều ứng dụng mà RV không có ý nghĩa (ví dụ NLP), pmi được sử dụng.

— thang

6

Đây là một ví dụ.

Trong hai ô này, hệ số tương quan bằng không. Nhưng chúng ta có thể nhận được thông tin chung được chia sẻ cao ngay cả khi tương quan bằng không.

Đầu tiên, tôi thấy rằng nếu tôi có giá trị X cao hoặc thấp thì tôi có thể nhận được giá trị cao của Y. Nhưng nếu giá trị của X ở mức vừa phải thì tôi có giá trị Y thấp. giữ thông tin về thông tin lẫn nhau được chia sẻ bởi X và Y. Trong cốt truyện thứ hai, X không cho tôi biết gì về Y.

— dennislendrem
nguồn

4

Mặc dù cả hai đều là thước đo mối quan hệ giữa các tính năng, MI tổng quát hơn hệ số tương quan (CE), CE chỉ có thể tính đến các mối quan hệ tuyến tính nhưng MI cũng có thể xử lý các mối quan hệ phi tuyến tính.

— Ôsin9
nguồn

Đo không phải sự thật. Hệ số tương quan Pearson giả định tính quy tắc và tuyến tính của hai biến ngẫu nhiên, các lựa chọn thay thế như Spearman không tham số không. Chỉ có sự đơn điệu giữa hai rvs được giả định.

— meo