Hiệp phương sai / tương quan khoảng cách (= hiệp phương sai / tương quan Brown) được tính theo các bước sau:
- Tính ma trận khoảng cách Euclide giữa
N
trường hợp của biến , và khác tương tự như vậy ma trận của biến Y . Bất kỳ một trong hai tính năng định lượng, X hoặc Y , có thể là đa biến, không chỉ là biến đổi.XYXY
- Thực hiện định tâm kép của mỗi ma trận. Xem làm thế nào đôi trung tâm thường được thực hiện. Tuy nhiên, trong trường hợp của chúng tôi, khi thực hiện, nó không bình phương khoảng cách ban đầu và không chia cho cuối cùng. Hàng, cột có nghĩa và trung bình tổng thể của các phần tử trở thành số không.−2
- Nhân hai ma trận tổng hợp theo nguyên tố và tính tổng; hoặc tương đương, hủy ghép các ma trận thành hai vectơ cột và tính tổng sản phẩm chéo của chúng.
- Trung bình, chia cho số lượng phần tử ,
N^2
.
- Lấy căn bậc hai. Kết quả là khoảng cách hiệp phương sai giữa vàX .Y
- Phương sai khoảng cách là hiệp phương sai của , của YXY với chính mình, bạn tính chúng tương tự, điểm 3-4-5.
- Khoảng cách tương quan được lấy từ ba số tương tự như cách tương quan Pearson thu được từ hiệp phương sai thông thường và cặp phương sai: chia hiệp phương sai cho căn bậc hai của sản phẩm của hai phương sai.
Hiệp phương sai (và tương quan) không phải là hiệp phương sai (hay tương quan) giữa các khoảng cách. Đó là hiệp phương sai (tương quan) giữa các sản phẩm vô hướng đặc biệt (sản phẩm chấm) mà ma trận "trung tâm kép" bao gồm.
Trong không gian euclide, một sản phẩm vô hướng là sự tương đồng được gắn một cách đơn phương với khoảng cách tương ứng. Nếu bạn có hai điểm (vectơ), bạn có thể biểu thị sự gần gũi của chúng dưới dạng sản phẩm vô hướng thay vì khoảng cách của chúng mà không mất thông tin.
Tuy nhiên, để tính toán một sản phẩm vô hướng, bạn phải tham khảo điểm gốc của không gian (vectơ đến từ điểm gốc). Nói chung, người ta có thể đặt nguồn gốc nơi anh ta thích, nhưng thường và thuận tiện là đặt nó ở giữa hình học giữa đám mây của các điểm, trung bình. Bởi vì giá trị trung bình thuộc về cùng một không gian như đám mây được kéo dài, chiều không bị phình ra.
Bây giờ, định tâm kép thông thường của ma trận khoảng cách (giữa các điểm của đám mây) là hoạt động chuyển đổi khoảng cách thành các sản phẩm vô hướng trong khi đặt gốc tọa độ ở giữa hình học đó. Khi làm như vậy, "mạng" khoảng cách được thay thế tương đương bằng "cụm" của vectơ, có độ dài cụ thể và góc cặp, từ gốc:
[Chòm sao trên hình ảnh ví dụ của tôi là mặt phẳng cho biết "biến", giả sử đó là , đã tạo ra nó là hai chiều. Khi XXX là một biến cột đơn, tất cả các điểm nằm trên một dòng.]
Chỉ cần một chút chính thức về hoạt động định tâm kép. Để có n points x p dimensions
dữ liệu (trong trường hợp đơn biến, ). Gọi D là ma trận khoảng cách euclide giữa các điểm. Đặt C là X với các cột ở giữa. Sau đó, S = đúp trung D 2 bằng C C ' , các sản phẩm vô hướng giữa các hàng sau khi các đám mây điểm được làm trung tâm. Tài sản chính của trung tâm kép là 1Xp=1
Dn x n
n
CXS=double-centered D2CC′, và số tiền này tương đương với tổng phủ nhận củatắtcác yếu tố -diagonal củaS12n∑D2=trace(S)=trace(C′C)S .
Quay trở lại tương quan khoảng cách. Chúng ta đang làm gì khi tính toán hiệp phương sai? Chúng tôi đã chuyển đổi cả hai lưới khoảng cách thành các vectơ tương ứng của chúng. Và sau đó, chúng tôi tính toán cộng hưởng (và sau đó là mối tương quan) giữa các giá trị tương ứng của hai bó: mỗi giá trị sản phẩm vô hướng (giá trị khoảng cách cũ) của một cấu hình đang được nhân với một cấu hình tương ứng của nó. Điều đó có thể được xem như (như đã nói ở điểm 3) tính toán hiệp phương sai thông thường giữa hai biến, sau khi vector hóa hai ma trận trong các "biến" đó.
Do đó, chúng tôi đang kết hợp hai bộ tương đồng (các sản phẩm vô hướng, là khoảng cách được chuyển đổi). Bất kỳ loại hiệp phương sai nào cũng là sản phẩm chéo của các khoảnh khắc: bạn phải tính toán các khoảnh khắc đó, độ lệch so với giá trị trung bình, đầu tiên, - và định tâm kép là tính toán đó. Đây là câu trả lời cho câu hỏi của bạn: hiệp phương sai cần dựa trên khoảnh khắc nhưng khoảng cách không phải là khoảnh khắc.
Việc bổ sung căn bậc hai sau (điểm 5) có vẻ hợp lý bởi vì trong trường hợp của chúng tôi, thời điểm đó đã là một loại hiệp phương sai (một sản phẩm vô hướng và hiệp phương sai được cấu trúc) và do đó, nó xuất hiện cho bạn một loại hiệp phương sai hai lần. Do đó, để giảm xuống mức giá trị của dữ liệu gốc (và để có thể tính giá trị tương quan), người ta phải lấy gốc sau đó.
Một lưu ý quan trọng cuối cùng cũng nên đi. Nếu chúng ta thực hiện định tâm kép theo cách cổ điển của nó - nghĩa là, sau khi bình phương khoảng cách euclide - thì chúng ta sẽ kết thúc với hiệp phương sai không phải là hiệp phương sai thực sự và không hữu ích. Nó sẽ xuất hiện suy biến thành một đại lượng chính xác liên quan đến hiệp phương sai thông thường (và tương quan khoảng cách sẽ là một hàm của tương quan Pearson tuyến tính). Điều gì làm cho hiệp phương sai / tương quan duy nhất và có khả năng đo không phải liên kết tuyến tính mà là một dạng phụ thuộc chung , do đó dCov = 0 nếu và chỉ khi các biến độc lập, - là thiếu bình phương khoảng cách khi thực hiện định tâm kép (xem điểm 2). Trên thực tế, bất kỳ sức mạnh của khoảng cách trong phạm vi sẽ làm, tuy nhiên, hình thức tiêu chuẩn là làm điều đó trên nguồn 1 . Tại sao quyền lực này chứ không phải sức mạnh 2 tạo điều kiện cho hệ số trở thành thước đo của sự phụ thuộc lẫn nhau phi tuyến là một vấn đề toán học khá phức tạp (đối với tôi) mang cácchức năng đặc trưngcủa phân phối, và tôi muốn nghe ai đó giáo dục nhiều hơn để giải thích ở đây cơ học về khoảng cách hiệp phương sai / tương quan với các từ có thể đơn giản (tôi đã từngthử, không thành công).(0,2)12