Đo lường sự phụ thuộc phi tuyến tính

Hiệp phương sai giữa hai biến ngẫu nhiên xác định một thước đo mức độ liên quan chặt chẽ của chúng với nhau. Nhưng nếu phân phối chung là vòng tròn thì sao? Chắc chắn có cấu trúc trong phân phối. Cấu trúc này được chiết xuất như thế nào?

covariance-matrix

— vô cực
nguồn

Theo "thông tư" tôi hiểu rằng phân phối tập trung vào một vùng hình tròn, như trong biểu đồ đường viền của pdf.

Biểu đồ đường viền của phân phối tròn

Nếu một cấu trúc như vậy tồn tại, thậm chí một phần, một cách tự nhiên để xác định và đo lường nó là lấy trung bình phân phối theo vòng tròn quanh tâm của nó . (Theo trực giác, điều này có nghĩa là với mỗi bán kính có thể, chúng ta nên trải rộng xác suất ở khoảng cách từ tâm bằng nhau theo mọi hướng.) Biểu thị các biến là , tâm phải được đặt tại điểm của khoảnh khắc đầu tiên . Để thực hiện tính trung bình, thuận tiện để xác định hàm phân phối xuyên tâm $r$ $r$ $(X,Y)$ $(\mu_X, \mu_Y)$

F (ρ) = Pr [(X - μ_{X})^{2} + (Y - μ_{Y})^{2} \leq ρ^{2}], ρ \geq 0;

$F(\rho) = \Pr[(X-\mu_X)^2 + (Y-\mu_Y)^2 \le \rho^2], \rho \ge 0;$

F (ρ) = 0, ρ < 0.

$F(\rho) = 0, \rho \lt 0.$

Điều này nắm bắt tổng xác suất nằm giữa khoảng cách và của trung tâm. Để truyền bá nó ra theo mọi hướng, cho phép là một biến ngẫu nhiên với lũy và là một biến ngẫu nhiên thống nhất trên không phụ thuộc vào . Biến ngẫu nhiên bivariate là trung bình tròn của . (Điều này thực hiện công việc mà trực giác của chúng ta đòi hỏi là "trung bình tròn" bởi vì (a) nó có phân bố xuyên tâm chính xác, cụ thể là , bằng cách xây dựng và (b) tất cả các hướng từ trung tâm ( $0$ $\rho$ $R$ $F$ $\Theta$ $[0, 2\pi]$ $R$ $(\Xi, H) = (R\cos(\Theta) + \mu_X, R\sin(\Theta)+\mu_Y)$ $(X,Y)$ $F$ $\Theta$ ) đều có thể xảy ra như nhau.)

Tại thời điểm này, bạn có nhiều lựa chọn: tất cả những gì còn lại là so sánh phân phối của với phân phối của . Các khả năng bao gồm khoảng cách và phân kỳ Kullback-Leibler (cùng với vô số các biện pháp khoảng cách liên quan: phân kỳ đối xứng, khoảng cách Hellinger, thông tin lẫn nhau, v.v. ). So sánh cho thấy có thể có cấu trúc vòng tròn khi nó "gần" với . Trong trường hợp này cơ cấu có thể được "chiết xuất" từ tính chất của . Ví dụ: thước đo vị trí trung tâm của , chẳng hạn như giá trị trung bình hoặc trung vị của nó, xác định "bán kính" của phân phối $(X,Y)$ $(\Xi, H)$ $L^p$ $(X,Y)$ $(\Xi, H)$ $F$ $F$ $(X,Y)$ và độ lệch chuẩn (hoặc thước đo tỷ lệ khác) của biểu thị mức độ "trải ra" theo hướng xuyên tâm về vị trí trung tâm của chúng . $F$ $(X,Y)$ $(\mu_X, \mu_Y)$

Khi lấy mẫu từ một phân phối, với dữ liệu , một thử nghiệm hợp lý về tính tuần hoàn là ước tính vị trí trung tâm như bình thường (với phương tiện hoặc trung vị) và từ đó chuyển đổi từng giá trị thành tọa độ cực so với trung tâm ước tính đó. So sánh độ lệch chuẩn (hoặc IQR) của bán kính với giá trị trung bình (hoặc trung vị) của chúng. Đối với phân phối không tròn, tỷ lệ sẽ lớn; đối với phân phối tròn nên tương đối nhỏ. (Nếu bạn có một mô hình cụ thể cho phân phối cơ bản, bạn có thể tìm ra phân phối lấy mẫu của thống kê xuyên tâm và xây dựng một thử nghiệm có ý nghĩa với nó.) Một cách riêng biệt, kiểm tra tọa độ góc cho tính đồng nhất trong khoảng $(x_i,y_i), 1 \le i \le n$ $(x_i,y_i)$ $(r_i, \theta_i)$ $[0, 2\pi)$ . Nó sẽ xấp xỉ thống nhất cho các phân phối tròn (và đối với một số phân phối khác nữa); tính không đồng nhất biểu thị một sự khởi hành từ tính tuần hoàn.

— whuber
nguồn

Cảm ơn bạn! Mặc dù không hoàn toàn rõ ràng, điều này cho tôi một số ý tưởng. Bạn có thể vui lòng giới thiệu một số cách đọc trong đó các loại phân phối được xử lý không? Tôi chỉ được tiếp xúc với Gaussian và các bản phân phối tiêu chuẩn khác. Một câu hỏi khác, điều này có liên quan gì đến các chức năng phân phối xuyên tâm của các nguyên tử không?

— Vô cực

@Infinity Hãy cho tôi biết phần nào không rõ ràng để tôi có thể cố gắng sửa nó. Tôi không biết nơi phân phối như vậy được thảo luận, nhưng phân tích liên quan có thể được tìm thấy trong tài liệu về "phân phối tròn". Các ý tưởng toán học cơ bản thực sự có phần liên quan đến lý thuyết quỹ đạo nguyên tử. Các khái niệm liên quan bao gồm sự phân tách của Phương trình Schrodinger trong tọa độ hình cầu, xây dựng thước đo Haar của một nhóm Lie nhỏ gọn bằng cách lấy trung bình và so sánh các quỹ đạo bằng các tích phân chồng chéo.

— whuber

Cảm ơn. Tôi rất mới với xác suất và số liệu thống kê nên có lẽ là vì điều đó. Tôi thực sự không hiểu ý của bạn là gì khi "trung bình phân phối vòng quanh trung tâm của nó", tôi nghĩ rằng nó có nghĩa là lấy trung bình tất cả các vòng tròn để chỉ còn một vòng tròn có tâm ở và bán kính kinda giống như một dòng hồi quy tuyến tính phù hợp. Đúng không?

(μ_{X}, μ_{Y})

$(\mu_X, \mu_Y)$

ρ

$\rho$

— Vô cực

Một nghi ngờ khác mà tôi có là hàm phân phối dường như mô tả một đĩa nhưng hình (và những gì tôi có trong đầu) là một chiếc nhẫn. Biến ngẫu nhiên mô tả vòng tròn trung bình ở dạng cực. Tôi xin lỗi tôi không rõ ràng những gì xảy ra tiếp theo. Tôi hiểu rằng chúng tôi so sánh hai bản phân phối bằng cách sử dụng một số số liệu khoảng cách, nhưng tại sao đặc biệt và cách nó giúp tôi không thể suy luận. Tôi xin lỗi nếu các câu hỏi có vẻ quá ngu ngốc.

F (ρ)

$F(\rho)$

(Ξ, H)

$(\Xi, H)$

(Ξ, H)

$(\Xi, H)$

— Vô cực

@Infinity Tôi đã thêm một số nhận xét làm rõ. Bạn không trung bình ra các vòng tròn; thay vào đó, bạn tính trung bình (hoặc "bôi nhọ") tất cả xác suất trên mỗi vòng tròn để cho dù bạn bắt đầu với cái gì, nó sẽ trông giống như hình ảnh của tôi (với các đường viền tròn). Nếu phân phối ban đầu thực sự là thông tư, thì trung bình này sẽ không thay đổi nó. Do đó, so sánh phân phối với phiên bản trung bình của nó cho bạn biết khoảng cách từ vòng tròn ở vị trí đầu tiên.

— whuber

Thông tin lẫn nhau có tính chất hơi giống với hiệp phương sai. Hiệp phương sai là một số bằng 0 cho các biến độc lập và khác không cho các biến phụ thuộc tuyến tính. Cụ thể, nếu hai biến giống nhau, thì hiệp phương sai bằng phương sai (thường là số dương). Một vấn đề với hiệp phương sai là nó có thể bằng 0 ngay cả khi hai biến không độc lập, với điều kiện sự phụ thuộc là không tuyến tính.

Thông tin lẫn nhau (MI) là một số không âm. Nó bằng 0 nếu và chỉ khi hai biến độc lập thống kê. Tài sản này là tổng quát hơn so với hiệp phương sai và bao gồm bất kỳ phụ thuộc nào, bao gồm cả các phi tuyến.

Nếu hai biến giống nhau, MI bằng entropy của biến (một lần nữa, thường là số dương). Nếu các biến là khác nhau và không liên quan đến xác định, thì MI nhỏ hơn entropy. Theo nghĩa này, MI của hai biến nằm trong khoảng từ 0 đến H (entropy), với 0 chỉ khi độc lập và H chỉ khi phụ thuộc một cách xác định.

Một điểm khác biệt so với hiệp phương sai là "dấu hiệu" của sự phụ thuộc bị bỏ qua. Ví dụ: , nhưng . $Cov(X, -X) = -Cov(X, X) = -Var(X)$ $MI(X, -X) = MI(X, X) = H(X)$

— SheldonCooper
nguồn

Bạn có thể mở rộng về cách khái niệm này cung cấp một câu trả lời cho câu hỏi?

— onestop

Xin hãy xem bài viết sau đây từ khoa học - nó giải quyết chính xác quan điểm của bạn:

Phát hiện các hiệp hội tiểu thuyết trong bộ dữ liệu lớn của David N. Reshef et al.

Từ tóm tắt:

Xác định mối quan hệ thú vị giữa các cặp biến trong tập dữ liệu lớn ngày càng quan trọng. Ở đây, chúng tôi trình bày một thước đo sự phụ thuộc cho mối quan hệ hai biến: hệ số thông tin tối đa (MIC). MIC nắm bắt một loạt các liên kết cả chức năng và không, và đối với các mối quan hệ chức năng cung cấp một số điểm gần bằng với hệ số xác định (R ^ 2) của dữ liệu so với hàm hồi quy. MIC thuộc về một lớp lớn hơn các số liệu thống kê thăm dò không đối xứng dựa trên thông tin tối đa (MINE) để xác định và phân loại các mối quan hệ. Chúng tôi áp dụng MIC và MINE cho các bộ dữ liệu về sức khỏe toàn cầu, biểu hiện gen, bóng chày giải đấu lớn và microbiota ruột người và xác định các mối quan hệ đã biết và mới lạ.

Bạn tìm tài liệu bổ sung tại đây: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1

Các tác giả thậm chí còn cung cấp một công cụ miễn phí kết hợp phương pháp mới có thể được sử dụng với R và Python: http://www.exploredata.net/

— vonjd
nguồn