Dấu hiệu hiệp phương sai và của Spearman's Rho


8

Có ai có bằng chứng cho thấy hiệp phương sai giữa hai biến luôn có cùng dấu với Rho của Spearman, giả sử rằng cả hai đều không bằng 0 , hoặc một lời giải thích / phản biện để cho thấy tại sao điều này không đúng?

Tôi đang nói về độ lớn của "dân số" (lý thuyết), chứ không phải các đối tác mẫu của họ. Cụ thể làX,Y hai biến ngẫu nhiên có chức năng phân phối FX,FYvà với tất cả các khoảnh khắc cần thiết, đồng thời, v.v., hiện có,

Cov(X,Y)=E(XY)E(X)E(Y)
trong khi

ρs(X,Y)=Cov[FX(X),FY(Y)]

Tôi biết rằng nếu X,Y là phụ thuộc Quadrant (QD), tích cực hoặc tiêu cực, điều này thực sự giữ,

(X,Y)=QDsign{Cov(X,Y)}=sign{ρs(X,Y)}

... một lần nữa, nếu cả hai không bằng không. Nhưng nếuQD không thể được thiết lập hoặc không giữ?

Những gì tôi cuối cùng sau đó là một bằng chứng rằng nếu h(Y) là một sự chuyển đổi đơn điệu ngày càng tăng của Y, sau đó sign{Cov(X,Y)}=sign{Cov(X,h(Y))}. Tôi biết rằng điều này xuất hiện mạnh mẽ trực quan và thậm chí là "hiển nhiên", nhưng tôi không thể tìm thấy bằng chứng như vậy ở bất cứ đâu, tôi cũng không thể tự mình chứng minh điều đó. Chính xác hơn, những gì tôi muốn thể hiện là, nếu cả hai không bằng 0, chúng không thể có dấu hiệu trái ngược nhau.

Bây giờ, vì Spearman's Rho là bất biến đối với các phép biến đổi đơn điệu mà chúng ta có ρs(X,Y)=ρs(X,h(Y)), do đó, một cách để chứng minh kết quả "cùng dấu" cho hiệp phương sai, sẽ là chứng minh rằng hiệp phương sai luôn có cùng dấu với Rho của Spearman, do đó câu hỏi này.

Tôi đã tìm thấy một biểu hiện đẹp cũ cho hiệp phương sai do W. Hoeffding mang lại Covρs định nghĩa "rất gần", nhưng tôi không thể chứng minh tuyên bố chung mà không giả sử Phụ thuộc Quadrant.

Tất nhiên, nếu ai đó có một cái gì đó trực tiếp trên kết quả "cùng dấu" (mong muốn) cho hiệp phương sai, nó sẽ hữu ích không kém.

CẬP NHẬT
Tôi thấy câu hỏi này có liên quan nhưng không giống nhau. Như đã đề cập, nó sửa đổi câu hỏi của tôi như sau: "Giả sử rằng cả hai biện pháp đều không bằng 0. Chúng có thể có dấu hiệu trái ngược nhau không?"


Bất kỳ mẫu xác định một phân phối: phân phối theo kinh nghiệm của nó. Do đó, nỗ lực của bạn để loại trừ các mẫu khỏi xem xét phải được hiểu là loại trừ các phân phối rời rạc hoặc thậm chí có thể tất cả các phân phối không liên tục. Nhưng tương ứng với bất kỳ phân phối rời rạc nào là một chuỗi các phân phối liên tục gần đúng gần đúng mà các thuộc tính hiệp phương sai và Spearman Rho sẽ hội tụ đến các phân phối rời rạc. Do đó, việc nhấn mạnh vào các loại trừ này là vô nghĩa - và cho phép chúng cung cấp cái nhìn sâu sắc để tạo ra vô số phản mẫu.
whuber

@whuber Tôi không thấy cách "không quan tâm đến kết quả từ các mẫu từ phân phối", "phải" được hiểu là "không bao gồm các phân phối rời rạc". Thực sự, tôi không hiểu điều đó. Tất cả những gì tôi yêu cầu là đưa cho tôi một CDF hai biến và hai lề có các yếu tố tương quan sao cho hai biểu thức được biểu thị theo các giá trị dự kiến ​​có thể có dấu hiệu trái ngược nhau, ít nhất là đối với một số giá trị của các tham số phân phối. Hoặc không thể có.
Alecos Papadopoulos

Bạn có một CDF hai biến như vậy: một phân phối thống nhất về các điểm mà mô phỏng của tôi đưa ra.
Dave

Câu trả lời:


3

Có rất nhiều mẫu. Nhưng hãy giải quyết câu hỏi cơ bản:

Những gì tôi cuối cùng sau đó là một bằng chứng rằng nếu h là một sự biến đổi đơn điệu ngày càng tăng, sau đó Sign{Cov(X,Y)}=Sign{Cov(X,h(Y))}.

Điều này là sai.

Ví dụ đầu tiên là phân phối thống nhất rời rạcF trên (xi,yi) điểm (1,8.1),(2,9.1),(3,10.1),(4,11.1),(5,12.1),(6,13.1),(7,0.1), ở đây được mô tả bằng cách vẽ bảy điểm đó thành các vòng tròn màu đỏ trong bảng điều khiển bên trái:

Số liệu

Hãy xem xét gia đình của các phép biến đổi Box-Cox

hp(y)=yp1pC+1

nơi hằng số C được chọn để làm cho các giá trị của hp(yi) có thể so sánh với y (ví dụ: bằng cách cài đặt Ctrở thànhp1 sức mạnh của ý nghĩa hình học của yi) và 1 được thêm vào để thực hiện h1nhận dạng. Đây đều là những thứ đơn điệu; một ví dụ được hiển thị chop=2trong bảng bên phải. Ảnh hưởng của chúng đối với hiệp phương sai được vẽ trong bảng giữa. Nó cho thấy sự thay đổi từ hiệp phương sai (do điểm ngoại vi ở phía dưới bên trái) sang hiệp phương sai dương (vì phép biến đổi làm cho điểm chỉ bớt đi một chút, làm giảm tác động tiêu cực của nó đối với hiệp phương sai dương mạnh mẽ của tất cả các dữ liệu khác) .

Cụ thể, để hoàn toàn rõ ràng, bạn có thể tính toán rằng

h(yi,2)=(7.0,8.6,10.4,12.4,14.5,16.8,0.908),

cho Cov(xi,yi)=7/3<0Cov(xi,h(yi,2))=0.39217>0. Các điểm (xi,h(yi,2)) được vẽ như hình tam giác màu xanh rỗng trong bảng điều khiển bên trái.

Ví dụ thứ hai là một phiên bản liên tục của lần đầu tiên. Để cho(U,V) có bất kỳ phân phối liên tục được hỗ trợ trên [1,1]×[1,1]. Đối với bất kỳ số thực ϵ định nghĩa

(Xϵ,Yϵ)=(X,Y)+ϵ(U,V).

Cung cấp ϵ0, (Xϵ,Yϵ)có phân phối liên tục (xem Là tổng của một biến ngẫu nhiên liên tục và biến ngẫu nhiên hỗn hợp liên tục? ). Cung cấp|ϵ|<1/10, sự hỗ trợ của (Xϵ,Yϵ) nằm trong góc phần tư thứ nhất (hoàn toàn tích cực trong cả hai biến), ngụ ý các phép biến đổi Box-Cox có thể được áp dụng cho Yϵ. Bạn có thể thực hiện các tính toán xác nhận rằng hiệp phương sai của (Xϵ,Yϵ) là một chức năng liên tục của ϵ. Ergo, cho đủ nhỏϵ, mẫu phản biện đầu tiên cho thấy hiệp phương sai của (Xϵ,Yϵ) là tiêu cực trong khi đó của (Xϵ,h2(Yϵ))là tích cực, QED.


1

Tôi nói rằng họ có thể có dấu hiệu trái ngược.

Hãy xem mô phỏng sau đây.

# Set a random seed so that everyone can get the same results
#     
set.seed(1)

# Import the library that simulates correlated bivariate data
#  
library(MASS) 

# Simulate bivariate normal data with standard normal 
# marginals and 0.9 Pearson correlation. To those 99 
# observations, add a gigantic outlier completely out 
# of the mainstream of the other 99 points. This is why 
# we end up with negative covariance.
#  
X <- rbind(mvrnorm(99,c(0,0),matrix(c(1,0.9,0.9,1),2,2)),c(-10000,10000)) 

# Plot the data
#  
plot(X[,1],X[,2]) 

# Calculate the covariance of the sample. When we regard 
# the simulated data as a discrete population, this is 
# the population covariance.
#  
cov(X[,1],X[,2]) # comes out negative, as the plot suggests

# Calculate the sample Spearman correlation, which is 
# positive, since 99% of the data follow an upward trend.
#  
cor(X[,1],X[,2],method='spearman') # comes out positive

Tuy nhiên, chúng ta có thể lấy dữ liệu mô phỏng thành một quần thể rời rạc.

# Apply the empirical CDF function to perform the probability
# integral transform. If we regard the sampled data as a
# discrete population, we have tricked R into calculating the
# population Spearman correlation.
#  
cov(ecdf(X[,1])(X[,1]),ecdf(X[,2])(X[,2])) # Positive, same value as before

"Ecdf" (CDF theo kinh nghiệm) lừa R tạo ra CDF dân số của biến số rời rạc này, vì vậy tôi nghĩ chúng ta đang làm việc ở cấp độ dân số và đây là một ví dụ điển hình.


Cảm ơn bạn vì câu trả lời. Bạn có thể vui lòng giải mã mã, liên quan đến cơ chế tạo dữ liệu ở đây là gì không?
Alecos Papadopoulos

Tôi đã thêm ý kiến ​​vào mã của tôi. Hy vọng rằng sẽ giúp.
Dave

Cảm ơn bạn. Thật vậy, họ giúp đỡ, bởi vì họ làm rõ rằng những gì bạn tìm thấy hoàn toàn là một vấn đề mẫu, vì hai biến ngẫu nhiên có tương quan bivariate Bình thường, luôn luôn phụ thuộc Quadrant. Vì vậy, đối với dân số này, hiệp phương sai dân số luôn có cùng dấu hiệu với dân số Spearman's rho.
Alecos Papadopoulos

Nếu chúng ta lấy dân số làm phân phối thống nhất rời rạc trên 99 điểm đó, thì đây không phải là một ví dụ về các dấu hiệu dân số khác nhau như thế nào?
Dave

Nếu tôi hiểu chính xác, cơ chế tạo dữ liệu là Bivariate Bình thường, điều đó có đúng không?
Alecos Papadopoulos

1

Để nâng cao giá trị của chủ đề này, tôi sẽ trình bày lý do tại sao Quadrant Dependence ngụ ý rằng
a) Hiệp phương sai sẽ có cùng dấu hiệu với Spearman's Rho nếu cả hai không bằng 0
) Dấu hiệu hiệp phương sai không bị ảnh hưởng bởi sự biến đổi đơn điệu, nếu vẫn còn khác không.

Tôi sẽ chỉ ra nó cho các bản phân phối liên tục với mật độ, nhưng đây không phải là một điều kiện quan trọng.

Để cho X, Y là hai biến ngẫu nhiên có chức năng phân phối chung FXY(x,y), hàm phân phối cận biên FX(x),FY(y) và mật độ biên / hàm khối xác suất fX(x),fY(y). Sau đó chúng tôi có

{Positive Quadrant Dependence iffFXY(x,y)FX(x)FY(y)0(x,y)Negative Quadrant Dependence iff FXY(x,y)FX(x)FY(y)0(x,y)

Lưu ý rằng điều kiện quan trọng là "cho tất cả (x,y)"Vòng loại.

Bây giờ "công thức hiệp phương sai tuyệt đẹp của Hoeffding" là

Cov(X,Y)=SXY[FXY(x,y)FX(x)FY(y)]dxdy

Ở đâu SXYlà sự hỗ trợ chung. Mặt khác, Spearman's Rho có thể được thể hiện như

ρS(X,Y)=12SXYfx(x)fy(y)[FXY(x,y)FX(x)FY(y)]dxdy

Những người nhớ rằng dF(x)=f(x)dxhiểu tại sao sự tồn tại của mật độ không quan trọng. Nhưng nó đang làm rõ: nén[FXY(x,y)FX(x)FY(y)]QD(x,y) chúng ta có

Cov(X,Y)=SXYQD(x,y)dxdy

ρS(X,Y)=12SXYfx(x)fy(y)QD(x,y)dxdy

Chúng tôi thấy rằng hiệp phương sai "tổng hợp" số lượng QD(x,y)vượt qua sự hỗ trợ chung "không trọng số", trong khi Spearman's Rho tính tổng chúng bằng trọng số của sản phẩm mật độ,fx(x)fy(y)(luôn luôn không âm). Nếu Phụ thuộc Quadrant giữ, thì trong cả hai biện pháp, chúng tôi chỉ "tổng hợp" những điều không tiêu cực hoặc chỉ những điều không tích cực.

Vì thế

a) DướiQD, Hiệp phương sai sẽ có cùng dấu hiệu với Spearman's Rho nếu cả hai không bằng 0:

sign{Cov(X,Y)}=sign{ρs(X,Y)}

Hơn nữa, hãy xem xét một sự chuyển đổi đơn điệu ngày càng tăng của Y, h(Y). Spearmans's Rho là bất biến dưới sự biến đổi như vậy

ρS(X,Y)=ρS(X,h(Y))

Theo Phụ thuộc Quadrant, chúng ta sẽ có, một lần nữa khi cả hai biện pháp không bằng không,

sign{Cov(X,h(Y))}=sign{ρs(X,h(Y))}

Liên kết dấu bằng chúng ta sau đó có được

sign{Cov(X,Y)}=sign{Cov(X,h(Y))}

Như được ngụ ý trong các câu trả lời khác, kết quả trái ngược ở đây là không thể loại bỏ sự phụ thuộc Quadrant: nếu nó không giữ được, thì chúng ta không có gì đảm bảo rằng một biến đổi tăng nghiêm ngặt của một biến sẽ bảo toàn dấu hiệu hiệp phương sai. Do đó, các đối số không chính thức "khá logic" như "kể từ khi nàoY có xu hướng tăng h(Y), nó theo sau nếu X đồng biến tích cực với Y, nó sẽ đồng biến tích cực với h(Y)"là sai -" nó theo sau "chỉ khi QD giữ

Chính thức, người ta có thể thấy điều này bằng cách thiết lập Z=h(Y),h(y)>0 và quan sát rằng

FZ(z)=FY(h1(z)),FXZ(x,z)=FXY(x,h1(z)),dz=h(y)dy
. Sau đó chúng tôi có

Cov(X,Z)=SXZ[FXZ(x,z)FX(x)FZ(z)]dxdz

=SXZ[FXY(x,h1(z))FX(x)FY(h1(z))]dxdz
và sau đó thực hiện thay đổi biến từ Z đến Y, để có được

Cov(X,Z)=SX,Yh(y)QD(x,y)dxdy

Nếu QD không giữ, có nghĩa là một số QD(x,y)sẽ tích cực và một số tiêu cực. Sau đó, thực tế rằng, nóiCov(X,Y)>0 một mình không thể đảm bảo rằng Cov(X,Z)>0 Ngoài ra, kể từ đây, chúng tôi cân trọng số trước h(y), mặc dù hoàn toàn tích cực không phải là một hằng số và do đó, nó có thể là trường hợp mà nó có trọng số không tương xứng nhiều hơn QD(x,y)đó là tiêu cực, hơn những người tích cực, dẫn đến tổng thể trong một giá trị âm. Vì vậy, từ con đường này ít nhất, tài sản của Quadrant Dependence là rất cần thiết.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.