Thuật toán MIC để phát hiện các mối tương quan phi tuyến tính có thể được giải thích bằng trực giác?


20

Gần đây, tôi đọc hai bài báo. Đầu tiên là về lịch sử của mối tương quan và thứ hai là về phương pháp mới gọi là Hệ số thông tin tối đa (MIC). Tôi cần sự giúp đỡ của bạn để hiểu phương pháp MIC để ước tính mối tương quan phi tuyến tính giữa các biến.

Ngoài ra, có thể tìm thấy Hướng dẫn sử dụng trong R trên trang web của tác giả (bên dưới Tải xuống ):

Tôi hy vọng đây sẽ là một nền tảng tốt để thảo luận và hiểu phương pháp này. Quan tâm của tôi để thảo luận về một trực giác đằng sau phương pháp này và làm thế nào nó có thể được mở rộng như tác giả đã nói.

" ... chúng tôi cần mở rộng MIC (X, Y) sang MIC (X, Y | Z). Chúng tôi sẽ muốn biết cần bao nhiêu dữ liệu để có được ước tính ổn định của MIC, mức độ nhạy cảm của nó đối với các ngoại lệ, ba - hoặc các mối quan hệ chiều cao hơn nó sẽ bỏ lỡ, và hơn thế nữa. MIC là một bước tiến tuyệt vời, nhưng còn nhiều bước nữa để thực hiện. "


Câu hỏi thú vị, nhưng tôi nghĩ nó không trả lời được. Bạn có thể vui lòng làm cho nó cụ thể hơn?
mpiktas

3
Các cuộc thảo luận sẽ bị cản trở bởi thực tế là bài báo trong Khoa học không phải là truy cập mở.
Itamar

7
Đây là một bản sao của bài báo được giải phóng bởi một trong những tác giả.

10
Nói tóm lại, MIC là một cuộc khai quật ý tưởng cũ về "cốt truyện tất cả các phân tán-và-đỉnh-những-với-khu vực trắng lớn nhất", do đó, nó chủ yếu tạo ra các dương tính giả, có độ phức tạp không thực của (mà các tác giả ẩn đằng sau heuristic chỉ kiểm tra một số cặp được chọn ngẫu nhiên) và theo thiết kế bỏ lỡ tất cả các tương tác ba biến trở lên. Ôi(M2)

4
Đối với các chi tiết kỹ thuật trên MIC, Tài liệu trực tuyến hỗ trợ có nhiều thông tin hơn so với chính bài viết.
res

Câu trả lời:


22

Có phải nó không nói rằng điều này đã được công bố trên một tạp chí phi thống kê có đánh giá ngang hàng thống kê mà chúng tôi không chắc chắn? Vấn đề này đã được giải quyết bằng Hoeffding vào năm 1948 (Biên niên sử Thống kê toán học 19: 546), người đã phát triển một thuật toán đơn giản không yêu cầu tạo thùng cũng như nhiều bước. Công trình của Hoeffding thậm chí không được tham khảo trong bài báo Khoa học. Điều này đã được trong hoeffdchức năng R trong Hmiscgói trong nhiều năm. Đây là một ví dụ (gõ example(hoeffd)vào R):

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0   

hoeffdsử dụng một triển khai Fortran khá hiệu quả của phương pháp Hoeffding. Ý tưởng cơ bản của bài kiểm tra của ông là xem xét sự khác biệt giữa các cấp bậc chung của X và Y và sản phẩm của thứ hạng cận biên của X và thứ hạng cận biên của Y, được chia tỷ lệ phù hợp.

Cập nhật

D

HmiscD|F(x,y)-G(x)H(y)|D


6
(+1) Giấy của Hoeffding có sẵn trực tuyến.
res

1
Đẹp tìm thấy. Có thể đáng lưu ý một chút cho Khoa học so sánh hiệu suất của Hoeffding với họ. Thật đáng tiếc khi nhiều nghiên cứu tốt (trong nhiều lĩnh vực) từ những năm 50 đã bị lãng quên trong những năm qua.
Itamar

6

MI=H(X)+H(Y)H(X,Y)
H(X)= =-Σtôip(ztôi)đăng nhậpp(ztôi)
H(X,Y)= =-Σtôi,jp(xtôi,yj)đăng nhậpp(xtôi,yj)

Ý tưởng chính của các tác giả là phân tách dữ liệu trên nhiều lưới hai chiều khác nhau và tính toán điểm số chuẩn hóa đại diện cho thông tin lẫn nhau của hai biến trên mỗi lưới. Điểm số được chuẩn hóa để đảm bảo so sánh công bằng giữa các lưới khác nhau và khác nhau giữa 0 (không tương quan) và 1 (tương quan cao).

R2


3

Tôi tìm thấy hai bài viết hay giải thích rõ ràng hơn về ý tưởng của MIC nói riêng về điều này ; Ở đây, thứ hai .

Theo tôi hiểu từ những lần đọc này là bạn có thể phóng to các mức độ phức tạp và thang đo khác nhau của mối quan hệ giữa hai biến bằng cách khám phá các kết hợp lưới khác nhau; các lưới này được sử dụng để phân chia không gian 2 chiều thành các ô. Bằng cách chọn lưới chứa nhiều thông tin nhất về cách các ô phân vùng không gian bạn đang chọn MIC.

Tôi muốn hỏi @mbq nếu anh ta có thể mở rộng cái mà anh ta gọi là "cốt truyện tất cả các phân tán-và-đỉnh-những người có diện tích lớn nhất trắng 'và độ phức tạp không thực của O (M2).


4
Tôi lo lắng về bất kỳ phương pháp thống kê nào sử dụng binning.
Frank Harrell

@FrankHarrell Bạn có thể cung cấp tài liệu tham khảo hoặc một số trực giác chi tiết tại sao binning là xấu? Theo trực giác, tôi có thể thấy rằng về cơ bản bạn đang vứt bỏ thông tin do việc đóng thùng, nhưng phải có nhiều lý do hơn tại sao?
Kiran K.

Có quá nhiều tài liệu tham khảo để biết bắt đầu từ đâu. Không có phương pháp thống kê dựa trên binning cuối cùng sống sót. Trọng tài là một trong nhiều vấn đề.
Frank Harrell

@FrankHarrell Đánh giá cao nhận xét. Lý do tôi yêu cầu tham khảo là tôi là một nghiên cứu sinh, và tôi đang nghiên cứu các khái niệm phụ thuộc và đa biến ngay bây giờ, và rất thích đọc các bài báo này và trích dẫn chúng trong các tác phẩm của riêng tôi trong tương lai. Nếu bạn có thể đề cập đến một hoặc hai cái nổi bật, tôi chắc chắn tôi có thể tìm thấy những cái còn lại mà bạn đang đề cập. Tôi cũng sẽ thực hiện một số hoạt động đào và đăng tài liệu tham khảo ở đây nếu tôi tìm thấy những tài liệu tốt.
Kiran K.

Bắt đầu với citeulike.org/user/harrelfe/article/13265458 sau đó xem thông tin khác về phân đôi tại biostat.mc.vanderbilt.edu/CatContinupt . Đối với một biện pháp phụ thuộc chung không yêu cầu bất kỳ việc đóng thùng nào, đừng bỏ lỡ citeulike.org/user/harrelfe/article/13264312
Frank Harrell
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.