Tại sao các nhà thống kê không sử dụng thông tin lẫn nhau như một biện pháp liên kết?


10

Tôi đã thấy một vài cuộc nói chuyện của các nhà phi thống kê nơi họ dường như phát minh lại các biện pháp tương quan bằng cách sử dụng thông tin lẫn nhau thay vì hồi quy (hoặc các xét nghiệm thống kê tương đương / liên quan chặt chẽ).

Tôi hiểu rằng có một lý do chính đáng để các nhà thống kê không thực hiện phương pháp này. Sự hiểu biết của giáo dân tôi là những người ước tính thông tin về entropy / thông tin lẫn nhau có xu hướng có vấn đề và không ổn định. Tôi cho rằng sức mạnh cũng có vấn đề do kết quả: họ cố gắng khắc phục điều này bằng cách tuyên bố rằng họ không sử dụng khung kiểm tra tham số. Thông thường loại công việc này không bận tâm đến các tính toán sức mạnh, hoặc thậm chí khoảng tin cậy / khoảng tin cậy.

Nhưng để có được vị trí ủng hộ của một ác quỷ, liệu sự hội tụ chậm có phải là vấn đề lớn khi các bộ dữ liệu cực kỳ lớn? Ngoài ra, đôi khi các phương pháp này dường như "hoạt động" theo nghĩa các hiệp hội được xác nhận bằng các nghiên cứu tiếp theo. Phê bình tốt nhất chống lại việc sử dụng thông tin lẫn nhau làm thước đo liên kết là gì và tại sao nó không được sử dụng rộng rãi trong thực tiễn thống kê?

chỉnh sửa: Ngoài ra, có bất kỳ giấy tờ tốt bao gồm những vấn đề này?


3
MI là thước đo liên kết giữa hai biến rời rạc. Nó không thực sự phổ biến như một thiết lập trong thống kê chung (có thể trong một số trường con chuyên biệt). Nhưng trong cài đặt đó, tôi thấy nó được sử dụng thường xuyên đủ. Chắc chắn, khi tôi bắt gặp những người áp dụng sử dụng tương quan Pearson trên các bộ dữ liệu rời rạc, tôi chỉ ra MI cho họ.
user603

1
Xem thêm stats.stackexchange.com/questions/1052/NH Tuy nhiên, theo tôi, cuộc thảo luận ở đây là tốt hay tốt hơn, vì vậy câu hỏi thông thường về trùng lặp là tranh luận.
Nick Cox

Ngoài ra để tham khảo xem số liệu thống kê.stackexchange.com / q / 2001/1036
Andy W

2
Một tài liệu tham khảo chung khác là Matthew Reimherr và Dan L. Nicolae. 2013. Về định lượng sự phụ thuộc: Một khung phát triển các biện pháp có thể giải thích được. Khoa học thống kê 28: 116-130.
Nick Cox

Câu trả lời:


4

Tôi nghĩ bạn nên phân biệt giữa dữ liệu phân loại (rời rạc) và dữ liệu liên tục.

Đối với dữ liệu liên tục, tương quan Pearson đo lường mối quan hệ tuyến tính (đơn điệu), tương quan xếp hạng một mối quan hệ đơn điệu.

Mặt khác, MI "phát hiện" bất kỳ mối quan hệ nào. Điều này thường không phải là những gì bạn quan tâm và / hoặc có khả năng là tiếng ồn. Cụ thể, bạn phải ước tính mật độ phân phối. Nhưng vì nó là liên tục, trước tiên bạn sẽ tạo một biểu đồ [thùng rời], sau đó tính MI. Nhưng vì MI cho phép mọi mối quan hệ, MI sẽ thay đổi khi bạn sử dụng các thùng nhỏ hơn (nghĩa là bạn cho phép nhiều wiggers hơn). Vì vậy, bạn có thể thấy rằng ước tính MI sẽ rất không ổn định, không cho phép bạn đặt bất kỳ khoảng tin cậy nào vào ước tính, v.v ... [Tương tự như vậy nếu bạn thực hiện ước tính mật độ liên tục.] Về cơ bản có quá nhiều thứ để ước tính trước khi tính toán thực sự MI.

Mặt khác, dữ liệu phân loại phù hợp khá độc đáo với khung MI (xem G-test) và không có nhiều lựa chọn giữa G-test và chi bình phương.


Tôi chủ yếu đề cập đến các trường hợp liên kết rời rạc (bằng hồi quy, tôi có GLM trong tâm trí, không chỉ OLS). Trên thực tế, rất nhiều nhà khoa học nghiên cứu các hiện tượng phức tạp (ví dụ như di truyền học) có thể nói rằng họ quan tâm nhiều hơn đến những gì bạn mô tả (phát hiện bất kỳ mối quan hệ nào ). Sự hấp dẫn của việc thoát khỏi những lời chỉ trích phổ biến rõ ràng về "điều gì xảy ra nếu hình thức chức năng của mối tương quan là sai? Tất nhiên tôi muốn phát hiện bất kỳ mối quan hệ nào !" là mạnh mẽ Tuy nhiên, tôi nghĩ rằng có một ngụy biện không ăn trưa miễn phí khi chơi ở đây, nhưng điều đó sẽ bị bỏ qua rằng tôi đang cố gắng nói rõ hơn / hiểu rõ hơn.
dùng4733

1
... Tôi đã không nhận thức được mối quan hệ giữa các bài kiểm tra LR và MI, điều đó rất thú vị!
dùng4733
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.