Hiểu tính toán tương quan khoảng cách

Theo như tôi hiểu, tương quan khoảng cách là một cách mạnh mẽ và phổ quát để kiểm tra xem có mối quan hệ nào giữa hai biến số hay không. Ví dụ: nếu chúng ta có một bộ các cặp số:

(x1, y1)
(x2, y2)
...
(xn, yn)

chúng ta có thể sử dụng tương quan khoảng cách để kiểm tra xem có bất kỳ mối quan hệ (không nhất thiết là tuyến tính) giữa hai biến ( xvà y) không. Hơn nữa, xvà ycó thể là vectơ có kích thước khác nhau.

Nó là tương đối dễ dàng để tính toán tương quan khoảng cách. Đầu tiên chúng ta sử dụng $x_i$ để tính ma trận khoảng cách. Sau đó, chúng tôi tính toán ma trận khoảng cách bằng cách sử dụng $y_i$ . Hai ma trận khoảng cách sẽ có cùng kích thước vì số $x_i$ và $y_i$ là như nhau (vì chúng đi theo cặp).

Bây giờ chúng ta có rất nhiều khoảng cách có thể được ghép nối. Ví dụ phần tử (2,3)từ ma trận khoảng cách thứ nhất được ghép với phần tử (2,3)từ ma trận khoảng cách thứ hai. Vì vậy, chúng ta có một tập hợp các cặp khoảng cách và chúng ta có thể sử dụng nó để tính toán tương quan (tương quan giữa các khoảng cách).

Nếu hai loại khoảng cách tương quan với nhau, điều đó có nghĩa là các X gần thường có nghĩa là các Y gần. Ví dụ: nếu $x_7$ gần với $x_{13}$ hơn thì có nghĩa là $y_7$ có khả năng gần với . Vì vậy, chúng ta có thể kết luận rằng Xs và Ys phụ thuộc. $y_{13}$

Nghe có vẻ hợp lý, tuy nhiên có hai khía cạnh mà tôi không hiểu .

Đầu tiên , để tính tương quan khoảng cách, chúng ta không sử dụng hai ma trận khoảng cách trực tiếp. Chúng tôi áp dụng cho họ quy trình định tâm kép (sao cho tổng của tất cả các phần tử trong bất kỳ hàng (hoặc cột) nào bằng 0). Tôi không hiểu tại sao chúng ta cần phải làm điều đó. Logic (hoặc trực giác) đằng sau bước này là gì?

Thứ hai , trong các ma trận khoảng cách ban đầu, chúng ta có các số 0 trên đường chéo. Vì vậy, nếu chúng ta tính toán tương quan giữa các khoảng cách, chúng ta sẽ có mối tương quan có ý nghĩa thống kê chỉ vì nhiều số không từ ma trận thứ nhất được ghép với các số 0 tương ứng trong ma trận thứ hai. Vấn đề này được giải quyết như thế nào?

— Roman
nguồn

Câu trả lời:

Hiệp phương sai / tương quan khoảng cách (= hiệp phương sai / tương quan Brown) được tính theo các bước sau:

Tính ma trận khoảng cách Euclide giữa Ntrường hợp của biến , và khác tương tự như vậy ma trận của biến . Bất kỳ một trong hai tính năng định lượng, hoặc , có thể là đa biến, không chỉ là biến đổi. $X$ $Y$ $X$ $Y$
Thực hiện định tâm kép của mỗi ma trận. Xem làm thế nào đôi trung tâm thường được thực hiện. Tuy nhiên, trong trường hợp của chúng tôi, khi thực hiện, nó không bình phương khoảng cách ban đầu và không chia cho cuối cùng. Hàng, cột có nghĩa và trung bình tổng thể của các phần tử trở thành số không. $-2$
Nhân hai ma trận tổng hợp theo nguyên tố và tính tổng; hoặc tương đương, hủy ghép các ma trận thành hai vectơ cột và tính tổng sản phẩm chéo của chúng.
Trung bình, chia cho số lượng phần tử , N^2.
Lấy căn bậc hai. Kết quả là khoảng cách hiệp phương sai giữa và $X$ . $Y$
Phương sai khoảng cách là hiệp phương sai của , của $X$ $Y$ với chính mình, bạn tính chúng tương tự, điểm 3-4-5.
Khoảng cách tương quan được lấy từ ba số tương tự như cách tương quan Pearson thu được từ hiệp phương sai thông thường và cặp phương sai: chia hiệp phương sai cho căn bậc hai của sản phẩm của hai phương sai.

Hiệp phương sai (và tương quan) không phải là hiệp phương sai (hay tương quan) giữa các khoảng cách. Đó là hiệp phương sai (tương quan) giữa các sản phẩm vô hướng đặc biệt (sản phẩm chấm) mà ma trận "trung tâm kép" bao gồm.

Trong không gian euclide, một sản phẩm vô hướng là sự tương đồng được gắn một cách đơn phương với khoảng cách tương ứng. Nếu bạn có hai điểm (vectơ), bạn có thể biểu thị sự gần gũi của chúng dưới dạng sản phẩm vô hướng thay vì khoảng cách của chúng mà không mất thông tin.

Tuy nhiên, để tính toán một sản phẩm vô hướng, bạn phải tham khảo điểm gốc của không gian (vectơ đến từ điểm gốc). Nói chung, người ta có thể đặt nguồn gốc nơi anh ta thích, nhưng thường và thuận tiện là đặt nó ở giữa hình học giữa đám mây của các điểm, trung bình. Bởi vì giá trị trung bình thuộc về cùng một không gian như đám mây được kéo dài, chiều không bị phình ra.

Bây giờ, định tâm kép thông thường của ma trận khoảng cách (giữa các điểm của đám mây) là hoạt động chuyển đổi khoảng cách thành các sản phẩm vô hướng trong khi đặt gốc tọa độ ở giữa hình học đó. Khi làm như vậy, "mạng" khoảng cách được thay thế tương đương bằng "cụm" của vectơ, có độ dài cụ thể và góc cặp, từ gốc:

[Chòm sao trên hình ảnh ví dụ của tôi là mặt phẳng cho biết "biến", giả sử đó là , đã tạo ra nó là hai chiều. Khi $X$ $X$ là một biến cột đơn, tất cả các điểm nằm trên một dòng.]

Chỉ cần một chút chính thức về hoạt động định tâm kép. Để có n points x p dimensionsdữ liệu (trong trường hợp đơn biến, ). Gọi là ma trận khoảng cách euclide giữa các điểm. Đặt là với các cột ở giữa. Sau đó, bằng , các sản phẩm vô hướng giữa các hàng sau khi các đám mây điểm được làm trung tâm. Tài sản chính của trung tâm kép là $\bf X$ p=1 $\bf D$ n x nn $\bf C$ $\bf X$ $\mathbf S = \text{double-centered } \mathbf D^2$ $\bf CC'$ , và số tiền này tương đương với tổng phủ nhận củatắtcác yếu tố -diagonal của $\frac{1}{2n} \mathbf {\sum D^2} = trace(\mathbf S) = trace(\mathbf {C'C})$ $\bf S$ .

Quay trở lại tương quan khoảng cách. Chúng ta đang làm gì khi tính toán hiệp phương sai? Chúng tôi đã chuyển đổi cả hai lưới khoảng cách thành các vectơ tương ứng của chúng. Và sau đó, chúng tôi tính toán cộng hưởng (và sau đó là mối tương quan) giữa các giá trị tương ứng của hai bó: mỗi giá trị sản phẩm vô hướng (giá trị khoảng cách cũ) của một cấu hình đang được nhân với một cấu hình tương ứng của nó. Điều đó có thể được xem như (như đã nói ở điểm 3) tính toán hiệp phương sai thông thường giữa hai biến, sau khi vector hóa hai ma trận trong các "biến" đó.

Do đó, chúng tôi đang kết hợp hai bộ tương đồng (các sản phẩm vô hướng, là khoảng cách được chuyển đổi). Bất kỳ loại hiệp phương sai nào cũng là sản phẩm chéo của các khoảnh khắc: bạn phải tính toán các khoảnh khắc đó, độ lệch so với giá trị trung bình, đầu tiên, - và định tâm kép là tính toán đó. Đây là câu trả lời cho câu hỏi của bạn: hiệp phương sai cần dựa trên khoảnh khắc nhưng khoảng cách không phải là khoảnh khắc.

Việc bổ sung căn bậc hai sau (điểm 5) có vẻ hợp lý bởi vì trong trường hợp của chúng tôi, thời điểm đó đã là một loại hiệp phương sai (một sản phẩm vô hướng và hiệp phương sai được cấu trúc) và do đó, nó xuất hiện cho bạn một loại hiệp phương sai hai lần. Do đó, để giảm xuống mức giá trị của dữ liệu gốc (và để có thể tính giá trị tương quan), người ta phải lấy gốc sau đó.

Một lưu ý quan trọng cuối cùng cũng nên đi. Nếu chúng ta thực hiện định tâm kép theo cách cổ điển của nó - nghĩa là, sau khi bình phương khoảng cách euclide - thì chúng ta sẽ kết thúc với hiệp phương sai không phải là hiệp phương sai thực sự và không hữu ích. Nó sẽ xuất hiện suy biến thành một đại lượng chính xác liên quan đến hiệp phương sai thông thường (và tương quan khoảng cách sẽ là một hàm của tương quan Pearson tuyến tính). Điều gì làm cho hiệp phương sai / tương quan duy nhất và có khả năng đo không phải liên kết tuyến tính mà là một dạng phụ thuộc chung , do đó dCov = 0 nếu và chỉ khi các biến độc lập, - là thiếu bình phương khoảng cách khi thực hiện định tâm kép (xem điểm 2). Trên thực tế, bất kỳ sức mạnh của khoảng cách trong phạm vi sẽ làm, tuy nhiên, hình thức tiêu chuẩn là làm điều đó trên nguồn . Tại sao quyền lực này chứ không phải sức mạnh tạo điều kiện cho hệ số trở thành thước đo của sự phụ thuộc lẫn nhau phi tuyến là một vấn đề toán học khá phức tạp (đối với tôi) mang cácchức năng đặc trưngcủa phân phối, và tôi muốn nghe ai đó giáo dục nhiều hơn để giải thích ở đây cơ học về khoảng cách hiệp phương sai / tương quan với các từ có thể đơn giản (tôi đã từngthử, không thành công). $(0,2)$ $1$ $2$

— ttnphns
nguồn

bằng "tổng sản phẩm chéo" trong bước 3, bạn có đơn giản chỉ là một sản phẩm vô hướng bình thường không?

— kram1032

@ kram1032, có sản phẩm scp và vô hướng là từ đồng nghĩa thống kê.stackexchange.com/a/22520 / 32777

— ttnphns

Tôi nghĩ rằng cả hai câu hỏi của bạn được liên kết sâu sắc. Trong khi các đường chéo ban đầu trong ma trận khoảng cách là 0, những gì được sử dụng cho hiệp phương sai (xác định tử số của mối tương quan) là các giá trị trung tâm gấp đôi của khoảng cách - mà, đối với một vectơ với bất kỳ biến thể nào, có nghĩa là các đường chéo sẽ là tiêu cực.

Vì vậy, hãy bước qua một trường hợp độc lập đơn giản và xem liệu điều đó có cho chúng ta bất kỳ trực giác nào về lý do tại sao mối tương quan là 0 khi hai biến độc lập.

$(X,Y)= [(0,0),(0,1),(1,0),(1,1)]$

Ma trận khoảng cách cho và là: $X$ $Y$

$a=\left[\begin{array}{cccc} 0&0&1&1\\ 0&0&1&1\\ 1&1&0&0\\ 1&1&0&0\end{array}\right]$

$b=\left[\begin{array}{cccc} 0&1&0&1\\ 1&0&1&0\\ 0&1&0&1\\ 1&0&1&0\end{array}\right]$

$A$

$A=\left[\begin{array}{rrrr} -.5&-.5&.5&.5\\ -.5&-.5&.5&.5\\ .5&.5&-.5&-.5\\ .5&.5&-.5&-.5\end{array}\right]$

$B=\left[\begin{array}{rrrr} -.5&.5&-.5&.5\\ .5&-.5&.5&-.5\\ -.5&.5&-.5&.5\\ .5&-.5&.5&-.5\end{array}\right]$

Now what happens when we compute the sample distance covariance, which is the average of the element-wise product of the two matrices? We can easily see of the 16 elements, 4 (the diagonal!) are $-.5\cdot-.5=.25$ pairs, 4 are $.5\cdot.5=.25$ pairs, and 8 are $-.5\cdot.5=-.25$ pairs, and so the overall average is $0$ , which is what we wanted.

That's an example, not a proof that it'll necessarily be the case that if the variables are independent, the distance correlation will be $0$ , and that if the distance correlation is 0, then the variables are independent. (The proof of both claims can be found in the 2007 paper that introduced the distance correlation.)

I find it intuitive that centering creates this desirable property (that $0$ has special significance). If we had just taken the average of the element-wise product of $a$ and $b$ we would have ended up with $0.25$ , and it would have taken some effort to determine that this number corresponded to independence. Using the negative "mean" as the diagonal means that's naturally taken care of. But you may want to think about why double centering has this property: would it also work to do single centering (with either the row, column, or grand mean)? Could we not adjust any real distances and just set the diagonal to the negative of either the row sum, column sum, or grand sum?

(As ttnphns points out, by itself this isn't enough, as the power also matters. We can do the same double centering but if we add them in quadrature we'll lose the if and only if property.)

— Matthew Graves
nguồn

Would you mind if I edited matrices into this answer?

— shadowtalker

@ssdecontrol thanks for the offer! I went through and did it myself, but feel free to make any other formatting changes.

— Matthew Graves

I don't quite understand what you mean by "single" in this case (is it what the Mattew said or else?) What is really mysterious/important to me (as I expressed it in the end of my answer) is why (theoretically) when we perform the double centering without squaring the distances first we facilitate the dCov to have its unique and useful properties.

— ttnphns

@ttnphns: By single centering I meant subtracting grand mean from each distance value. In any case, I agree that distance covariance is mysterious.

— amoeba says Reinstate Monica

@amoeba i wish the authors would write a follow-up with some kind of intuitive explanation and an efficient implementation for multiple pairs of variables. It's closing in on a decade since their original paper and distance covariance is still mostly just a quixotic diversion for grad students. the only time I've ever seen it used in practice was in a then-unimplemented feature in Stan to diagnose MC chains

— shadowtalker