Câu trả lời:
Theo "thông tư" tôi hiểu rằng phân phối tập trung vào một vùng hình tròn, như trong biểu đồ đường viền của pdf.
Nếu một cấu trúc như vậy tồn tại, thậm chí một phần, một cách tự nhiên để xác định và đo lường nó là lấy trung bình phân phối theo vòng tròn quanh tâm của nó . (Theo trực giác, điều này có nghĩa là với mỗi bán kính có thể, chúng ta nên trải rộng xác suất ở khoảng cách từ tâm bằng nhau theo mọi hướng.) Biểu thị các biến là , tâm phải được đặt tại điểm của khoảnh khắc đầu tiên . Để thực hiện tính trung bình, thuận tiện để xác định hàm phân phối xuyên tâmr ( X , Y ) ( μ X , μ Y )
Điều này nắm bắt tổng xác suất nằm giữa khoảng cách và của trung tâm. Để truyền bá nó ra theo mọi hướng, cho phép là một biến ngẫu nhiên với lũy và là một biến ngẫu nhiên thống nhất trên không phụ thuộc vào . Biến ngẫu nhiên bivariate là trung bình tròn của . (Điều này thực hiện công việc mà trực giác của chúng ta đòi hỏi là "trung bình tròn" bởi vì (a) nó có phân bố xuyên tâm chính xác, cụ thể là , bằng cách xây dựng và (b) tất cả các hướng từ trung tâm () đều có thể xảy ra như nhau.)
Tại thời điểm này, bạn có nhiều lựa chọn: tất cả những gì còn lại là so sánh phân phối của với phân phối của . Các khả năng bao gồm khoảng cách và phân kỳ Kullback-Leibler (cùng với vô số các biện pháp khoảng cách liên quan: phân kỳ đối xứng, khoảng cách Hellinger, thông tin lẫn nhau, v.v. ). So sánh cho thấy có thể có cấu trúc vòng tròn khi nó "gần" với . Trong trường hợp này cơ cấu có thể được "chiết xuất" từ tính chất của . Ví dụ: thước đo vị trí trung tâm của , chẳng hạn như giá trị trung bình hoặc trung vị của nó, xác định "bán kính" của phân phối và độ lệch chuẩn (hoặc thước đo tỷ lệ khác) của biểu thị mức độ "trải ra" theo hướng xuyên tâm về vị trí trung tâm của chúng .
Khi lấy mẫu từ một phân phối, với dữ liệu , một thử nghiệm hợp lý về tính tuần hoàn là ước tính vị trí trung tâm như bình thường (với phương tiện hoặc trung vị) và từ đó chuyển đổi từng giá trị thành tọa độ cực so với trung tâm ước tính đó. So sánh độ lệch chuẩn (hoặc IQR) của bán kính với giá trị trung bình (hoặc trung vị) của chúng. Đối với phân phối không tròn, tỷ lệ sẽ lớn; đối với phân phối tròn nên tương đối nhỏ. (Nếu bạn có một mô hình cụ thể cho phân phối cơ bản, bạn có thể tìm ra phân phối lấy mẫu của thống kê xuyên tâm và xây dựng một thử nghiệm có ý nghĩa với nó.) Một cách riêng biệt, kiểm tra tọa độ góc cho tính đồng nhất trong khoảng . Nó sẽ xấp xỉ thống nhất cho các phân phối tròn (và đối với một số phân phối khác nữa); tính không đồng nhất biểu thị một sự khởi hành từ tính tuần hoàn.
Thông tin lẫn nhau có tính chất hơi giống với hiệp phương sai. Hiệp phương sai là một số bằng 0 cho các biến độc lập và khác không cho các biến phụ thuộc tuyến tính. Cụ thể, nếu hai biến giống nhau, thì hiệp phương sai bằng phương sai (thường là số dương). Một vấn đề với hiệp phương sai là nó có thể bằng 0 ngay cả khi hai biến không độc lập, với điều kiện sự phụ thuộc là không tuyến tính.
Thông tin lẫn nhau (MI) là một số không âm. Nó bằng 0 nếu và chỉ khi hai biến độc lập thống kê. Tài sản này là tổng quát hơn so với hiệp phương sai và bao gồm bất kỳ phụ thuộc nào, bao gồm cả các phi tuyến.
Nếu hai biến giống nhau, MI bằng entropy của biến (một lần nữa, thường là số dương). Nếu các biến là khác nhau và không liên quan đến xác định, thì MI nhỏ hơn entropy. Theo nghĩa này, MI của hai biến nằm trong khoảng từ 0 đến H (entropy), với 0 chỉ khi độc lập và H chỉ khi phụ thuộc một cách xác định.
Một điểm khác biệt so với hiệp phương sai là "dấu hiệu" của sự phụ thuộc bị bỏ qua. Ví dụ: , nhưng .
Xin hãy xem bài viết sau đây từ khoa học - nó giải quyết chính xác quan điểm của bạn:
Phát hiện các hiệp hội tiểu thuyết trong bộ dữ liệu lớn của David N. Reshef et al.
Từ tóm tắt:
Xác định mối quan hệ thú vị giữa các cặp biến trong tập dữ liệu lớn ngày càng quan trọng. Ở đây, chúng tôi trình bày một thước đo sự phụ thuộc cho mối quan hệ hai biến: hệ số thông tin tối đa (MIC). MIC nắm bắt một loạt các liên kết cả chức năng và không, và đối với các mối quan hệ chức năng cung cấp một số điểm gần bằng với hệ số xác định (R ^ 2) của dữ liệu so với hàm hồi quy. MIC thuộc về một lớp lớn hơn các số liệu thống kê thăm dò không đối xứng dựa trên thông tin tối đa (MINE) để xác định và phân loại các mối quan hệ. Chúng tôi áp dụng MIC và MINE cho các bộ dữ liệu về sức khỏe toàn cầu, biểu hiện gen, bóng chày giải đấu lớn và microbiota ruột người và xác định các mối quan hệ đã biết và mới lạ.
Bạn tìm tài liệu bổ sung tại đây: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1
Các tác giả thậm chí còn cung cấp một công cụ miễn phí kết hợp phương pháp mới có thể được sử dụng với R và Python: http://www.exploredata.net/