Có một đặc tính trực quan của mối tương quan khoảng cách?


14

Tôi đã nhìn chằm chằm vào trang wikipedia về tương quan khoảng cách nơi nó dường như được đặc trưng bởi cách tính toán. Trong khi tôi có thể thực hiện các phép tính, tôi đấu tranh để có được các biện pháp tương quan khoảng cách và lý do tại sao các phép tính trông giống như chúng làm.

Có một (hoặc nhiều) đặc tính trực quan hơn về tương quan khoảng cách có thể giúp tôi hiểu những gì nó đo lường?

Tôi nhận ra rằng yêu cầu trực giác là một chút mơ hồ, nhưng nếu tôi biết loại trực giác nào tôi đã yêu cầu có lẽ tôi sẽ không hỏi ngay từ đầu. Tôi cũng sẽ rất vui vì trực giác về trường hợp tương quan khoảng cách giữa hai biến ngẫu nhiên (mặc dù tương quan khoảng cách được xác định giữa hai vectơ ngẫu nhiên).

Câu trả lời:


8

Câu trả lời này của tôi không trả lời chính xác câu hỏi. Xin vui lòng đọc các ý kiến.

Chúng ta hãy so sánh hiệp phương sai thông thườnghiệp phương sai khoảng cách . Phần hiệu quả của cả hai là tử số của họ. (Mẫu số chỉ đơn giản là trung bình.) Tử số của hiệp phương sai là tóm tắt chéo sản phẩm (= sản phẩm vô hướng) của độ lệch từ một điểm, giá trị trung bình: (với superscripted μ như trọng tâm đó). Để viết lại biểu hiện trong phong cách này: Σ d x i μ d y i μ , với dΣ(xiμx)(yiμy)μΣdiμxdiμydđại diện cho độ lệch của điểm từ tâm, tức là khoảng cách (đã ký) của nó đến tâm. Hiệp phương sai được xác định bằng tổng các sản phẩm của hai khoảng cách trên tất cả các điểm.i

Làm thế nào mọi thứ với hiệp phương sai khoảng cách ? Tử số là, như bạn biết, . Nó không giống với những gì chúng ta đã viết ở trên sao? Và sự khác biệt là gì? Ở đây, khoảng cách d là giữa các điểm dữ liệu khác nhau , không phải giữa điểm dữ liệu và giá trị trung bình như trên. Hiệp phương sai khoảng cách được xác định bằng tổng các tích của hai khoảng cách trên tất cả các cặp điểm.Σdijxdijyd

Sản phẩm vô hướng (giữa hai thực thể - trong trường hợp của chúng tôi, các biến y ) dựa trên khoảng cách đồng từ một điểm cố định được tối đa hóa khi dữ liệu được sắp xếp dọc theo một đường thẳng . Sản phẩm vô hướng dựa trên khoảng cách đồng từ điểm var * i * có thể được tối đa hóa khi dữ liệu được sắp xếp dọc theo một đường thẳng cục bộ, chính xác; nói cách khác, khi tổng thể dữ liệu đại diện cho chuỗi bất kỳ hình dạng nào , sự phụ thuộc của bất kỳ hình dạng nào.xy

Và thực tế, hiệp phương sai thông thường sẽ lớn hơn khi mối quan hệ gần với tuyến tính hoàn hảo hơn và phương sai lớn hơn. Nếu bạn chuẩn hóa các phương sai thành một đơn vị cố định, hiệp phương sai chỉ phụ thuộc vào độ mạnh của liên kết tuyến tính, và sau đó nó được gọi là tương quan Pearson . Và, như chúng ta đã biết - và chỉ cần có một số trực giác tại sao - hiệp phương sai khoảng cách lớn hơn khi mối quan hệ gần với đường cong hoàn hảo và chênh lệch dữ liệu lớn hơn. Nếu bạn tiêu chuẩn hóa các mức chênh lệch thành một đơn vị cố định, hiệp phương sai chỉ phụ thuộc vào độ mạnh của một số liên kết đường cong, và sau đó nó được gọi là tương quan Brownian (khoảng cách) .


Đoạn thứ hai làm cho nó nhấp cho tôi. Tôi không biết tại sao tôi không thấy điều đó trong trang wikipedia ... Cảm ơn!
Rasmus Bååth

Chỉ cần tự hỏi, nơi en.wikipedia.org/wiki/Brownian_covariance#Distance_covariance là tử số từ ví dụ của bạn (hoặc làm thế nào để chuyển từ tử số của bạn sang phiên bản wikipedia)? Wikipedia chỉ mô tả cách tính bình phương của hiệp phương sai và tôi gặp một chút rắc rối khi khớp với mô tả của bạn so với mô tả ở đó ...
Rasmus Bååth

d

Vâng, trung tâm kép đã làm tôi bối rối. Sẽ rất tuyệt vời nếu bạn có thời gian để làm rõ điều đó! :)
Rasmus Bååth

1
α=1
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.