Làm thế nào để tôi kiểm tra hai biến liên tục là độc lập?


48

Giả sử tôi có một mẫu từ phân phối chung của XY . Làm thế nào để kiểm tra giả thuyết rằng XYđộc lập ?(Xn,Yn),n=1..NXYXY

Không có giả định nào được đưa ra dựa trên luật phân phối chung hoặc biên của Y (ít nhất là tất cả các quy tắc chung, vì trong trường hợp đó tính độc lập giống hệt với tương quan là 0 ).XY0

Không có giả định nào được thực hiện dựa trên bản chất của mối quan hệ có thể có giữa Y ; nó có thể không tuyến tính, vì vậy các biến không tương quan ( r = 0 ) nhưng phụ thuộc rất cao ( I = H ).XYr=0I=H

Tôi có thể thấy hai cách tiếp cận:

  1. Bin cả hai biến và sử dụng thử nghiệm chính xác của Fisher hoặc G-test .

    • Pro: sử dụng các bài kiểm tra thống kê được thiết lập tốt
    • Con: phụ thuộc vào binning
  2. Ước tính sự phụ thuộc của Y : I ( X ; Y )XYI(X;Y)H(X,Y) (đây làđối vớiXYđộc lậpvà1khi chúng hoàn toàn xác định lẫn nhau).0XY1

    • Pro: tạo ra một số có ý nghĩa lý thuyết rõ ràng
    • Con: phụ thuộc vào tính toán entropy gần đúng (nghĩa là đóng gói lại)

Những cách tiếp cận này có ý nghĩa?

Những phương pháp khác mọi người sử dụng?



@RayKoopman: cảm ơn, tôi đang đọc Đo lường và Kiểm tra sự phụ thuộc bằng cách tương quan khoảng cách ngay bây giờ!
sds

1
sự phụ thuộc không có ý nghĩa khi nói về các biến liên tục. Các biến liên tục có entropy vô hạn. Ở đây, bạn không thể thay thế H cho entropy vi sai, vì entropy vi sai không thể so sánh với thông tin lẫn nhau. Trong khi thông tin lẫn nhau có một "tuyệt đối" có nghĩa là, các entropy khác biệt có thể là tích cực, bằng không, hoặc thậm chí tiêu cực, tùy thuộc vào các đơn vị bạn sử dụng để đo lường các biến XY . I(X;Y)/H(X;Y)HXY
fonini

@fonini: tất nhiên, tôi đã nói về các biến bị đánh cắp. Cảm ơn bình luận của bạn mặc dù.
sds

Câu trả lời:


27

Đây là một vấn đề rất khó nói chung, mặc dù các biến của bạn rõ ràng chỉ có 1d để giúp. Tất nhiên, bước đầu tiên (khi có thể) nên là vẽ sơ đồ dữ liệu và xem có gì bật ra ở bạn không; Bạn đang ở trong 2d nên việc này sẽ dễ dàng.

Dưới đây là một vài cách tiếp cận hoạt động trong hoặc thậm chí nhiều cài đặt chung hơn:Rn


Bạn có thể đề cập ngắn gọn về cách các phương pháp này so sánh với Khoảng cách tương quan ? Tôi đang sử dụng DC để sàng lọc các bộ dữ liệu lớn (tốt, lớn đối với tôi), vì vậy tôi quan tâm đến bất kỳ nhận xét nào bạn có thể có. Cảm ơn!
pteetor

1
@pteetor Điều đó thật thú vị, tôi đã không chạy qua tương quan khoảng cách trước đây. Về mặt tính toán, nó có vẻ đắt hơn so với phương pháp ước lượng entropy cho các cỡ mẫu lớn vì bạn cần ma trận khoảng cách đầy đủ (trong đó đối với các công cụ ước tính entropy bạn có thể sử dụng các chỉ số để chỉ lấy các klân cận đầu tiên ). Không có ý tưởng làm thế nào nó so sánh về sức mạnh thống kê / vv
Dougal

4
Dành cho những độc giả sau này: Tài liệu tương đương năm 2013 về thống kê dựa trên khoảng cách và dựa trên RKHS trong kiểm tra giả thuyết của Sejdinovic et al. cho thấy mối tương quan khoảng cách và khoảng cách năng lượng khác là các trường hợp cụ thể của MMD, thước đo cơ bản đằng sau HSIC và thảo luận về mối quan hệ về mặt sức mạnh thử nghiệm, v.v.
Dougal


6

Làm thế nào về bài viết này:

http://arxiv.org/pdf/0804.4101.pdf

"Đo lường và kiểm tra sự phụ thuộc theo mối tương quan của khoảng cách". Székely và Bakirov luôn có những thứ thú vị.

Có mã MATLAB để thực hiện:

http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation

Nếu bạn tìm thấy bất kỳ thử nghiệm nào khác (đơn giản để thực hiện) cho độc lập hãy cho chúng tôi biết.


2
Chào mừng đến với trang web, @JLp. Chúng tôi hy vọng sẽ xây dựng một kho lưu trữ thông tin thống kê chất lượng cao vĩnh viễn dưới dạng câu hỏi và câu trả lời. Như vậy, một điều chúng tôi lo lắng là linkrot. Với ý nghĩ đó, bạn có phiền khi đưa ra một bản tóm tắt về những gì trong bài báo đó / cách nó trả lời các câu hỏi, trong trường hợp liên kết bị chết. Nó cũng sẽ giúp độc giả tương lai của chủ đề này quyết định xem họ có muốn đầu tư thời gian để đọc bài viết hay không.
gung - Phục hồi Monica

@gung: điều này giống như năng lượng
sds

5

Liên kết giữa các thử nghiệm hiệp phương sai và nhân (dựa trên tiêu chí độc lập Hilbert - Schmidt) được đưa ra trong bài báo:

Sejdinovic, D., Sriperumbudur, B., Gretton, A., và Fukumizu, K., Sự tương đương của thống kê dựa trên khoảng cách và dựa trên RKHS trong kiểm tra giả thuyết, Biên niên sử Thống kê, 41 (5), tr.2263-2702, 2013

Điều đó cho thấy hiệp phương sai khoảng cách là trường hợp đặc biệt của thống kê hạt nhân, đối với một họ hạt nhân cụ thể.

Nếu bạn có ý định sử dụng thông tin lẫn nhau, một bài kiểm tra dựa trên ước tính đã bị đánh cắp của MI là:

Gretton, A. và Gyorfi, L., Các bài kiểm tra không độc lập nhất quán, Tạp chí nghiên cứu máy học, 11, tr.1391--1423, 2010.

Nếu bạn quan tâm đến việc có được sức mạnh kiểm tra tốt nhất, tốt hơn hết bạn nên sử dụng các bài kiểm tra hạt nhân, thay vì tạo thông tin và thông tin lẫn nhau.

Điều đó nói rằng, với các biến của bạn là đơn biến, các thử nghiệm độc lập không theo tỷ lệ cổ điển như Hoeffding có lẽ vẫn ổn.


4

Hiếm khi (không bao giờ?) Trong thống kê, bạn có thể chứng minh rằng thống kê mẫu của bạn = một giá trị điểm. Bạn có thể kiểm tra đối với các giá trị điểm và loại trừ chúng hoặc không loại trừ chúng. Nhưng bản chất của thống kê là về việc kiểm tra dữ liệu biến. Bởi vì luôn có phương sai nên sẽ không có cách nào để biết rằng một cái gì đó chính xác không liên quan, bình thường, gaussian, v.v. Bạn chỉ có thể biết một loạt các giá trị cho nó. Bạn có thể biết nếu một giá trị được loại trừ khỏi phạm vi của các giá trị hợp lý. Ví dụ, thật dễ dàng để loại trừ không có mối quan hệ và đưa ra phạm vi giá trị cho mối quan hệ lớn như thế nào.

Do đó, cố gắng chứng minh không có mối quan hệ, về cơ bản giá trị điểm relationship = 0sẽ không đáp ứng với thành công. Nếu bạn có một loạt các biện pháp về mối quan hệ có thể chấp nhận được xấp xỉ bằng 0. thì có thể đưa ra một thử nghiệm.

Giả sử rằng bạn có thể chấp nhận giới hạn đó sẽ hữu ích cho những người đang cố gắng hỗ trợ bạn cung cấp một biểu đồ phân tán với đường cong thấp. Vì bạn đang tìm giải pháp R hãy thử:

scatter.smooth(x, y)

Dựa trên thông tin hạn chế bạn đã cung cấp cho đến nay tôi nghĩ rằng một mô hình phụ gia tổng quát có thể là điều tốt nhất để kiểm tra tính không độc lập. Nếu bạn vẽ điều đó với CI xung quanh các giá trị dự đoán, bạn có thể đưa ra tuyên bố về niềm tin độc lập. Kiểm tra gamtrong gói mgcv. Sự giúp đỡ này khá tốt và có sự trợ giúp ở đây liên quan đến CI .


2

Nó có thể thú vị ...

Garcia, JE; Các thử nghiệm độc lập của Gonzalez-Lopez, VA (2014) cho các biến ngẫu nhiên liên tục dựa trên chuỗi tăng dài nhất. Tạp chí Phân tích đa biến, câu 127 trang. 126-146.

http://www.scTHERirect.com/science/article/pii/S0047259X14000335


2
Bài đăng này sẽ được hưởng lợi từ nhiều chi tiết hơn về những gì trong bài viết, đặc biệt là vì nó đứng sau một tường thành.
Erik

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.