Là bất đẳng thức tam giác được thực hiện cho các khoảng cách dựa trên tương quan?


12

Để phân cụm theo phân cấp, tôi thường thấy hai "số liệu" sau đây (chúng không nói chính xác) để đo khoảng cách giữa hai biến ngẫu nhiên XY :

d1(X,Y)=1|Cor(X,Y)|,d2(X,Y)=1(Cor(X,Y))2
Có ai thực hiện bất đẳng thức tam giác không? Nếu vậy tôi phải chứng minh điều đó như thế nào ngoài việc tính toán bruteforce? Nếu chúng không phải là số liệu, ví dụ đơn giản là gì?

Bạn có thể quan tâm đến việc xem xét bài viết này: arxiv.org/pdf/1208.3145.pdf .
Chris

Câu trả lời:


5

Các bất đẳng thức tam giác trên của bạn sẽ mang lại: d1

d1(X,Z)d1(X,Y)+d1(Y,Z)1|Cor(X,Z)|1|Cor(X,Y)|+1|Cor(Y,Z)||Cor(X,Y)|+|Cor(Y,Z)|1+|Cor(X,Z)|

Điều này có vẻ khá bất bình đẳng dễ dàng để đánh bại. Chúng ta có thể làm cho phía bên tay phải nhỏ nhất có thể (chính xác là một) bằng cách làm cho Z độc lập. Sau đó, chúng ta có thể tìm thấy một Y mà phía bên trái vượt quá một?XZY

Nếu XZ có sai giống hệt nhau, sau đó C o r ( X , Y ) = Y=X+ZXZvà tương tự đối vớiCor(Y,Z), do đó, phía bên trái cao hơn một và bất đẳng thức bị vi phạm. Ví dụ về vi phạm này trong R, trong đóXZlà các thành phần của thông thường đa biến:Cor(X,Y)=220.707Cor(Y,Z)XZ

library(MASS)
set.seed(123)
d1 <- function(a,b) {1 - abs(cor(a,b))}

Sigma    <- matrix(c(1,0,0,1), nrow=2) # covariance matrix of X and Z
matrixXZ <- mvrnorm(n=1e3, mu=c(0,0), Sigma=Sigma, empirical=TRUE)
X <- matrixXZ[,1] # mean 0, variance 1
Z <- matrixXZ[,2] # mean 0, variance 1
cor(X,Z) # nearly zero
Y <- X + Z

d1(X,Y) 
# 0.2928932
d1(Y,Z)
# 0.2928932
d1(X,Z)
# 1
d1(X,Z) <= d1(X,Y) + d1(Y,Z)
# FALSE

Mặc dù lưu ý rằng công trình này không hoạt động với của bạn :d2

d2 <- function(a,b) {1 - cor(a,b)^2}
d2(X,Y) 
# 0.5
d2(Y,Z)
# 0.5
d2(X,Z)
# 1
d2(X,Z) <= d2(X,Y) + d2(Y,Z)
# TRUE

Thay vì khởi động một cuộc tấn công lý thuyết vào , ở giai đoạn này tôi chỉ thấy dễ dàng hơn khi chơi xung quanh với ma trận hiệp phương sai trong R cho đến khi một ví dụ đẹp xuất hiện. Cho phép V a r ( X ) = 2 , V a r ( Z ) = 1C o v ( X , Z ) = 1 cho:d2SigmaVar(X)=2Var(Z)=1Cov(X,Z)=1

Var(Y)=Var(X+Y)=Var(X)+Var(Z)+2Cov(X,Z)=2+1+2=5

Chúng tôi cũng có thể điều tra hiệp phương sai:

C o v (

Cov(X,Y)=Cov(X,X+Z)=Cov(X,X)+Cov(X,Z)=2+1=3
Cov(Y,Z)=Cov(X+Z,Z)=Cov(X,Z)+Cov(Z,Z)=1+1=2

Các tương quan bình phương là: Cor(X,Y)2=Cov(X,Y)2

Cor(X,Z)2=Cov(X,Z)2Var(X)Var(Z)=122×1=0.5
Cor(Y,Z)2=Cov(Y,Z)2
Cor(X,Y)2=Cov(X,Y)2Var(X)Var(Y)=322×5=0.9
Cor(Y,Z)2=Cov(Y,Z)2Var(Y)Var(Z)=225×1=0.8

Khi đó trong khi d 2 ( X , Y ) = 0,1d 2 ( Y , Z ) = 0,2 nên bất đẳng thức tam giác bị vi phạm bởi một biên đáng kể.d2(X,Z)=0.5d2(X,Y)=0.1d2(Y,Z)=0.2

Sigma    <- matrix(c(2,1,1,1), nrow=2) # covariance matrix of X and Z
matrixXZ <- mvrnorm(n=1e3, mu=c(0,0), Sigma=Sigma, empirical=TRUE)
X <- matrixXZ[,1] # mean 0, variance 2
Z <- matrixXZ[,2] # mean 0, variance 1
cor(X,Z) # 0.707
Y  <- X + Z
d2 <- function(a,b) {1 - cor(a,b)^2}
d2(X,Y) 
# 0.1
d2(Y,Z)
# 0.2
d2(X,Z)
# 0.5
d2(X,Z) <= d2(X,Y) + d2(Y,Z)
# FALSE

5

Hãy để chúng tôi có ba vectơ (nó có thể là biến hoặc cá nhân) , YXYZ

dXY2=2(n1)(1cosXY)cosXYrXY2(n1)

d1(X,Y)=1|Cor(X,Y)|

|r||r|

Đối với "d1" mỗi se, đó là "như" d

nhập mô tả hình ảnh ở đây

αβα+βrXYrXZrYZdXYdXZdYZXZα+β). Đó là vị trí trong đó sự vi phạm bất đẳng thức tam giác bằng khoảng cách bình phương là nổi bật nhất.

dYZ2>dXY2+dXZ2.

Therefore regarding

d1(X,Y)=1|Cor(X,Y)|

distance we can say it is not metric. Because even when all rs were originally positive the distance is the euclidean d2 which itself isn't metric.

What is about the second distance?

d2(X,Y)=1(Cor(X,Y))2

Since correlation r in the case of standardized vectors is cos, 1r2 is sin2. (Indeed, 1r2 is SSerror/SStotal of a linear regression, a quantity which is the squared correlation of the dependent variable with something orthogonal to the predictor.) In that case draw the sines of the vectors, and make them squared (because we are talking about the distance which is sin2):

enter image description here

Although it is not quite obvious visually, the green sinYZ2 square is again larger than the sum of red areas sinXY2+sinXZ2.

It could be proved. On a plane, sin(α+β)=sinαcosβ+cosαsinβ. Square both sides since we are interested in sin2.

sin2(α+β)=sin2α(1sin2β)+(1sin2α)sin2β+2sinαcosβcosαsinβ=sin2α+sin2β2[sin2αsin2β]+2[sinαcosαsinβcosβ]

In the last expression, two important terms are shown bracketed. If the second of the two is (or can be) larger than the first one then sin2(α+β)>sin2α+sin2β, and the "d2" distance violates triangular inequality. And it is so on our picture where α is about 40 degrees and β is about 30 degrees (term 1 is .1033 and term 2 is .2132). "D2" isn't metric.

The square root of "d2" distance - the sine dissimilarity measure - is metric though (I believe). You can play with various α and β angles on my circle to make sure. Whether "d2" will show to be metric in a non-collinear setting (i.e. three vectors not on a plane) too - I can't say at this time, albeit I tentatively suppose it will.


3

See also this preprint that I wrote: http://arxiv.org/abs/1208.3145 . I still need to take time and properly submit it. The abstract:

We investigate two classes of transformations of cosine similarity and Pearson and Spearman correlations into metric distances, utilising the simple tool of metric-preserving functions. The first class puts anti-correlated objects maximally far apart. Previously known transforms fall within this class. The second class collates correlated and anti-correlated objects. An example of such a transformation that yields a metric distance is the sine function when applied to centered data.

The upshot for your question is that d1, d2 are indeed not metrics and that the square root of d2 is in fact a proper metric.


2

No.

Simplest counter-example:

for X=(0,0) the distance is not defined at all, whatever your Y is.

Any constant series has standard deviation σ=0, and thus causes a division by zero in the definition of Cor...

At most it is a metric on a subset of the data space, not including any constant series.


Good point! I must mention this in the pre-print mentioned elsewhere.
micans
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.