Là mối tương quan mẫu luôn luôn tương quan dương với phương sai mẫu?


7

Tương quan mẫu và độ lệch chuẩn mẫu của (gọi là ) dường như tương quan dương nếu tôi mô phỏng hai biến , bình thường với tương quan dương thực sự (và dường như tương quan nghịch nếu tương quan thực giữa và là tiêu cực). Tôi thấy điều này hơi phản trực giác. Rất heurist, tôi cho rằng nó phản ánh thực tế rằng đại diện cho sự gia tăng dự kiến ​​của Y (tính theo đơn vị SD (Y)) cho mức tăng một SD trong X và nếu chúng ta ước tính lớn hơn , thì phản ánh sự thay đổi trong Y liên kết với một thay đổi lớn hơn trong X.rXSXXYXYrSXr

Tuy nhiên, tôi muốn biết nếu cho nói chung (ít nhất là đối với trường hợp X và Y là bivariate bình thường và với n lớn). Để biểu thị một SD thực sự, chúng ta có:Cov(r,Sx)>0r>0σ

Cov(r,SX)= =E[rSX]-ρσx

E[Cov^(X,Y)SY]-Cov(X,Y)σY

Tôi đã cố gắng sử dụng một khai triển Taylor về thời hạn đầu tiên, nhưng nó phụ thuộc vào , vì vậy đó là một ngõ cụt. Có ý kiến ​​gì không?Cov(Cov^(X,Y),SY)

BIÊN TẬP

Có lẽ hướng tốt hơn là cố gắng chỉ ra rằng , trong đó là hệ số OLS của Y trên X. Sau đó, chúng ta có thể lập luận rằng vì , điều này hàm ý kết quả mong muốn. Vì gần giống như một sự khác biệt của phương tiện mẫu, có lẽ chúng ta có thể nhận được kết quả trước đó bằng cách sử dụng một cái gì đó giống như sự độc lập đã biết của trung bình mẫu và phương sai đối với RV bình thường?Cov(β^,SX)= =0β^β^= =rSYSXβ^


Nó sẽ không thay đổi. Hừm. Tôi sợ rằng tôi chưa thấy sự liên quan, mặc dù.
một nửa vượt qua

Tôi có lẽ cũng nên lưu ý rằng trong khi tôi muốn đây là một câu hỏi bài tập về nhà, thì nó không ... :)
một nửa vượt qua

1
Ah, tôi không đọc những câu hỏi một cách cẩn thận đủ. Lời xin lỗi của tôi.
jbowman

Sự bình đẳng đầu tiên trong tính toán của bạn là không đúng. phù hợp với độ lệch chuẩn, nhưng không thiên vị: en.wikipedia.org/wiki/Unbiased_estimation_of_stiteria_deviationsx=sx2
Andrew M

Tuy nhiên, nó rất gần với không thiên vị cho n lớn - hệ số hiệu chỉnh quy tắc ngón tay cái cho một RV bình thường là (n - 1,5) so với (n-1).
một nửa vượt qua

Câu trả lời:


4

TL; dr

Các mục ngoài đường chéo của hiệp phương sai mẫu thường sẽ tương quan với các mục chéo vì chỉ khi các điều kiện đặc biệt của khoảnh khắc thứ 4 hỗn hợp giữ. Khi là hai biến Gaussian, những điều kiện tổ chức chỉ khi là độc lập của .E(XY3)-E(XY)E(Y2)= =0(X,Y)XY

Chi tiết

Có một kết quả tiệm cận có thể được hiển thị ở đây bằng cách kiểm tra phân phối giới hạn của -times hiệp phương thức mẫu (bởi CLT, nó sẽ là đa biến thông thường) và sau đó áp dụng phương pháp delta. Thật không may, điều này có nghĩa là chúng ta sẽ phải đi đường vòng qua việc phân phối hiệp phương sai mẫu vì tôi không thể tìm thấy bất kỳ tài liệu tham khảo hay nào về nó trực tuyến. Thay phiên, nếu bạn sẵn sàng đảm nhận tính quy tắc, thì kiến ​​thức về hiệp phương sai của phân phối Wishart sẽ cho phép bạn bỏ qua trực tiếp đến phần 2.n1

1 Phân phối tiệm cận của hiệp phương sai mẫu

Đặt là một mẫu iid từ phân phối hai biến với các khoảnh khắc thứ tư hữu hạn và hãy để Không mất tính tổng quát và để tránh một số sổ sách kế toán thêm khó chịu, chúng tôi sẽ giả . V1,Giáo dục,VnVTôi= =(XTôiYTôi)

Cov(VTôi)= =(σ2ρστρσττ2)= =Σ.
E(VTôi)= =0

Sau đó, theo tính tuyến tính của kỳ vọng và định luật yếu của số lượng lớn, hiệp phương sai mẫu không thiên vị và nhất quán cho và trên thực tế

Sn= =1n-1ΣTôi= =1n(VTôi-V¯n)(VTôi-V¯n)T= =1n-1ΣTôi= =1VTôiVTôiT-nn-1V¯nV¯nT
Σ
n(Sn-Σ)dN(0,Λ).

Do đó, bài tập chuyển sang xác định . Đối với một đối xứng ma trận , chúng ta hãy được "vector hóa" của tam giác trên của nó. Bây giờ hãy xem xét một yếu tố duy nhất của trung bình mà đi vào thuật ngữ hàng đầu (ma trận tán xạ) của : Rõ ràng bởi giả định zero-mean, đã và bằng cách xem xét các quyền hạn của và xuất hiện trong chúng ta có thể chỉ ghi ΛMột= =(mộtbbc)Một~= =(một,b,c)TSn

Z~Tôi= =VTôiVTôiT~= =(XTôi2XTôiYTôiYTôi2).
E(ZTôi)= =Σ~XYZ~TôiZ~TôiT
Cov(Z~Tôi)= =E(Z~TôiZ~TôiT)-E(Z~Tôi)E(Z~Tôi)T= =(κ40σ4κ31σ2τκ22σ2τ2κ31σ2τκ22σ2τ2κ13στ3κ22σ2τ2κ13στ3κ04τ4)-Σ~Σ~T.

Ở đây cho biết thứ thời điểm chuẩn hỗn hợp (về giá trị trung bình, nhưng chúng tôi giả định không có nghĩa là lúc bắt đầu).

κTôij= =E[(XTôiσ)Tôi(YTôiτ)j]
Tôij

Thay phiên, chúng tôi có hệ số hóa trong đó , và

Cov(Z~i)=D(σ,τ)[KR(ρ)R(ρ)T]D(σ,τ),(1)
D(σ,τ)=diag(σ2,στ,τ2)R(ρ)=(1,ρ,1)T
K=(κ04κ31κ22κ31κ22κ13κ22κ13κ04).

Do đó, chúng ta có và , đại diện cho phương sai mẫu của và hiệp phương sai của tương quan với nhau trừ khi . Khi là đa biến thông thường, điều này chỉ xảy ra khi .Z11Z12XX,Yρ=κ31Viρ=0

2 Hệ số tương quan

Bây giờ hãy xem xét phép biến đổi trên . Điều này cung cấp phân phối bivariate của hệ số tương quan mẫu và phương sai mẫu của x. Theo phương pháp delta và tính quy tắc tiệm cận của , trong đó là jacobian của .g(x,y,z)=(x,yzx)Sn~Sn

n(g(Sn~)-(ρ,σ2)T)N(0,J(Σ~)TΛ~J(Σ~)),
J(Σ~)= =[g1T,g2T]Tg

Tôi thấy (mặc dù bạn có thể muốn kiểm tra đại số của mình ..) rằng độ dốc của thành phần thứ hai của là Vậy g

g2(σ2,ρστ,τ2)= =(-ρ2σ2,1στ,-ρ2τ2)T,

J(σ,ρ,τ)= =(1-ρ2σ201στ0-ρ2τ2).

Đặt tất cả cùng với hệ số nhân trong phương trình (1)

J(σ,ρ,τ)TD(σ,τ)[K-R(ρ)R(ρ)T]D(σ,τ)J(σ,ρ,τ).

Cắm một số số dễ sử dụng, giả sử và , chúng tôi sẽ có trong đó nói chung là một số ma trận dày đặc. Được phép của Mathicala, tôi đã mở rộng sản phẩm này theo các mục trong và kể lại bên dướiσ= =τ= =1ρ= =.5

J(σ,ρ,τ)TD(σ,τ)[K-R(ρ)R(ρ)T]D(σ,τ)J(σ,ρ,τ)= =(-1/41-1/4100)TôiΩTôi(-1/4110-1/40)= =Q,
Ω= =K-R(ρ)R(ρ)TKQ12
n×Q12= =n×Cov(r,Sx2)= =κ31-κ04+κ224(2)
đó là một biểu hiện mờ đục về các khoảnh khắc hỗn hợp, nhưng chắc chắn không có vẻ như nó sẽ bằng không, nói chung.

3 Chuyên cho trường hợp bình thường

Định lý Isserlis cung cấp một cách để rút ra các khoảnh khắc hỗn hợp của một Gaussian. Một lần nữa giả sử và , chúng ta sẽ có , do đó, , khi bạn quan sát.σ= =τ= =1ρ= =.5κ31=3/2,κ04=3,κ22=3/2Q12=3/2(3+3/2)/4=3/8>0

4 Mô phỏng và ví dụ

Dưới đây tìm một phương trình xác minh mô phỏng (1). Đối với và (màu đỏ và màu xanh, tương ứng) quan sát iid từ một bình thường đa biến, tôi lấy được các hiệp phương sai của bởi bootstrap. Hiệp phương sai giữa và được vẽ trên trục y khi thay đổi từ đến . Giá trị lý thuyết từ phương trình (1) và sử dụng các sự kiện về khoảnh khắc bậc 4 của Gaussian bivariate được vẽ trong một đường màu đen nét đứt.n= =100n= =1000nS~nSxySxxρ-.9.9

phương trình mô phỏng kiểm định (1)

Một bài tập thú vị là cố gắng tìm một họ copula mà với bất kỳ giá trị nào của sẽ hiển thị ...ρCov(Sxy,Sxx)= =0

library(mvtnorm)
library(tidyverse)
library(boot)
params = expand.grid(sx = 1, sy = 1, n = c(100, 1000), rho = seq(-.9, .9, by = .1), replicate = 1:10) %>% mutate(k04 = 3*sx^4, k31 = 3*sx*rho*sx*sy, q12 = k31 - rho*sx*sy)

Sn_tilde = function(dat, idx){
    Sn = cov(dat[idx,,drop =FALSE])*sqrt(length(idx))
    Sn[upper.tri(Sn, diag = TRUE)]
}

out = params %>% group_by_all() %>% do({
    x = with(., rmvnorm(n = .$n, sigma = matrix(c(sx^2, rho*sx*sy,
                                            rho*sx*sy, sy^2), nrow = 2)))
colnames(x) = c('X', 'Y')
b = boot(x, Sn_tilde, R = 500)
cov_Sn = cov(b$t)
    rownames(cov_Sn) = colnames(cov_Sn) = c('Sxx', 'Sxy', 'Syy')
    as_tibble(cov_Sn, rownames = 'j')
})


ggplot(filter(out,  j == 'Sxx'), aes(x = rho, y = Sxy, color = factor(n))) + geom_point(size = .5, alpha = .5) + geom_smooth(method = 'lm') + geom_line(data = filter(params, replicate == 1, n == 100), aes(y = q12), lty = 2, color = 'black') + theme_minimal() + ylab('Cov(Sxy, Sxx)')


1 Điều này sử dụng rất nhiều ghi chú bài giảng của Michael Perlman về thống kê xác suất và toán học, điều mà tôi thực sự mong muốn có sẵn dưới dạng điện tử để tôi có thể thay thế tôi khi chúng bị hao mòn ...


Cảm ơn bạn! Tuy nhiên, tôi nghĩ có thể có một sai lầm ở đâu đó: thực tế có vẻ như , không phải 3/8, theo kinh nghiệm (mặc dù không phải vì và ). Cov(r,Sx)0Corr(r,Sx)Vmộtr(r,Sx)0Vmộtr(r,Sx)0
một nửa vượt qua

Tôi sẽ hỏi một câu hỏi mới về điều này vì tôi cũng không biết cách hiển thị . Cov(r,Sx)0
một nửa vượt qua

(+1) Bài viết rất thú vị. Dường như đối với bivariate , biểu thức ước tính thành . Điều này dẫn đến kết quả là nếu trong khi if . N(0,1)(2)3ρ-1-0,5ρ2ρ<0,35Cov(r,Sx2)<0ρ>0,35Cov(r,Sx2)>0
Alecos Papadopoulos

@ Half-pass: Cặp cần được tăng tỷ lệ theo để có phân phối giới hạn (không suy biến). Nếu bạn muốn kiểm tra mối tương quan theo từng se, bạn có thể sử dụng kết quả trong phần 1 và chỉ cần sửa đổi hàm trong phần 2 cho phù hợp. (r,Sx)ng
Andrew M

1
@AlecosPapadopoulos: biểu hiện 2 đã được chuyên biệt hóa cho trường hợp đó và . Nếu tất cả những gì bạn quan tâm là dấu hiệu của mối liên hệ giữa và , chỉ có thể kiểm tra mục [1,2] trong sự khác biệt trong phương trình 1 bằng cách sử dụng thông tin về khoảnh khắc hỗn hợp của một bivariate bình thường để cắm vào là một chức năng của . τ2= =σ2= =1ρ= =.5SxrK-R(ρ)R(ρ)TKρ
Andrew M

1

Chỉnh sửa: Câu trả lời này không chính xác. Tôi không chắc liệu tốt hơn là để nó ở đây để ghi lại, hoặc chỉ xóa nó.

Có, nó không có triệu chứng bất kể sự phân phối của X và Y. Tôi đã đi đúng hướng với bản mở rộng Taylor:

nhập mô tả hình ảnh ở đây


Tôi nhìn vào eq. , dòng thứ hai. Chúng tôi có một giới hạn xác suất trừ đi một số lượng cố định. Nếu chúng ta có tính nhất quán, giới hạn xác suất bằng với số lượng cố định. Do đó, dòng thứ 2 của eq. dường như bằng 0 ... nên được mong đợi, vì giới hạn xác suất của bằng với . Nhưng cả và đều là hằng số, vì vậy hiệp phương sai của chúng bằng không. Có vẻ như kết quả thu được phụ thuộc rất nhiều vào việc bỏ qua phần còn lại của Taylor (có dấu hiệu chúng ta không biết) và (CONTD)(2.1)(2.1)Cov(r,Sx)Cov(ρ,σx)ρσx
Alecos Papadopoulos

1
(CONTD) ... và 2) về việc áp dụng thuộc tính nhất quán một cách chọn lọc theo các điều khoản nhất định nhưng không áp dụng cho các điều khoản khác. Bạn có chắc chắn rằng đây là những thao tác hợp lệ?
Alecos Papadopoulos

Cảm ơn cho sự đẩy lùi. Tôi đã thực hiện thao tác đó trong dòng thứ hai bởi vì, đối với RVs U và V nói chung, plim E [U] E [V] = plim E [U] plim E [V], cho tôi thuật ngữ thứ hai. Nhưng đối với nhiệm kỳ đầu tiên, plim E [UV]! = Plim E [U] plim E [V]. Do đó, tôi nghĩ rằng tôi đã áp dụng tính nhất quán xuyên suốt, chỉ trên các bước khác nhau.
một nửa vượt qua

Tôi không chắc chắn, mặc dù ...
một nửa vượt qua

Được rồi - điều này thực sự không chính xác! Tuy nhiên, tôi không nghĩ rằng đó là do thao tác đầu tiên mà là thực tế là tôi đã bỏ qua Var (s_Y) -> 0, dẫn đến một tautology. Thật không may, tôi không thể hạ thấp câu trả lời của riêng tôi.
một nửa vượt qua

0

Nó sẽ phụ thuộc vào phân phối chung. Đối với ví dụ bạn đề cập, phân phối chuẩn bivariate (zero-mean) được đặc trưng bởi . Theo sau, người ta có thể có tất cả các kết hợp giá trị có thể có của ba tham số này, ngụ ý rằng không có mối quan hệ nào giữa và độ lệch chuẩn có thể được thiết lập.ρ,σx,σyρ

Đối với các phân phối bivariate khác, hệ số tương quan về cơ bản có thể là một hàm của độ lệch chuẩn (về cơ bản cả hai sẽ là các hàm của các tham số nguyên thủy hơn), trong trường hợp đó, người ta có thể kiểm tra xem có tồn tại mối quan hệ đơn điệu hay không.


2
Tôi hiểu rằng ba tham số có thể có mối quan hệ tùy ý cho phân phối BVN, nhưng tôi không nghĩ rằng theo ước tính mẫu của các tham số này là độc lập không có triệu chứng.
một nửa vượt qua
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.