TL; dr
Các mục ngoài đường chéo của hiệp phương sai mẫu thường sẽ tương quan với các mục chéo vì chỉ khi các điều kiện đặc biệt của khoảnh khắc thứ 4 hỗn hợp giữ. Khi là hai biến Gaussian, những điều kiện tổ chức chỉ khi là độc lập của .E(XY3)−E(XY)E(Y2)=0(X,Y)XY
Chi tiết
Có một kết quả tiệm cận có thể được hiển thị ở đây bằng cách kiểm tra phân phối giới hạn của -times hiệp phương thức mẫu (bởi CLT, nó sẽ là đa biến thông thường) và sau đó áp dụng phương pháp delta. Thật không may, điều này có nghĩa là chúng ta sẽ phải đi đường vòng qua việc phân phối hiệp phương sai mẫu vì tôi không thể tìm thấy bất kỳ tài liệu tham khảo hay nào về nó trực tuyến. Thay phiên, nếu bạn sẵn sàng đảm nhận tính quy tắc, thì kiến thức về hiệp phương sai của phân phối Wishart sẽ cho phép bạn bỏ qua trực tiếp đến phần 2.n−−√1
1 Phân phối tiệm cận của hiệp phương sai mẫu
Đặt là một mẫu iid từ phân phối hai biến với các khoảnh khắc thứ tư hữu hạn và hãy để
Không mất tính tổng quát và để tránh một số sổ sách kế toán thêm khó chịu, chúng tôi sẽ giả
. V1, ... ,VnVTôi= (XTôiYTôi)Cov (VTôi) = (σ2ρ στρ σττ2) =Σ.
E(VTôi) = 0
Sau đó, theo tính tuyến tính của kỳ vọng và định luật yếu của số lượng lớn, hiệp phương sai mẫu
không thiên vị và nhất quán cho và trên thực tế
Sn= =1n - 1Σi = 1n(VTôi-V¯n) (VTôi-V¯n)T= =1n - 1Σi = 1VTôiVTTôi-nn - 1V¯nV¯Tn
Σn--√(Sn- Σ )→dN( 0 , Λ ) .
Do đó, bài tập chuyển sang xác định . Đối với một đối xứng ma trận , chúng ta hãy được "vector hóa" của tam giác trên của nó. Bây giờ hãy xem xét một yếu tố duy nhất của trung bình mà đi vào thuật ngữ hàng đầu (ma trận tán xạ) của :
Rõ ràng bởi giả định zero-mean, đã và bằng cách xem xét các quyền hạn của và xuất hiện trong chúng ta có thể chỉ ghi
ΛA = (mộtbbc)Một~= ( a , b , c)TSnZ~Tôi= =VTôiVTTôi~= =⎛⎝⎜X2TôiXTôiYTôiY2Tôi⎞⎠⎟.
E(ZTôi) = =Σ~XYZ~TôiZ~TTôiCov (Z~Tôi) = E(Z~TôiZ~TTôi) - E(Z~Tôi) E(Z~Tôi)T= =⎛⎝⎜κ40σ4κ31σ2τκ22σ2τ2κ31σ2τκ22σ2τ2κ13στ3κ22σ2τ2κ13στ3κ04τ4⎞⎠⎟-Σ~Σ~T.
Ở đây cho biết thứ thời điểm chuẩn hỗn hợp (về giá trị trung bình, nhưng chúng tôi giả định không có nghĩa là lúc bắt đầu).κtôi j= E[(XTôiσ)Tôi(YTôiτ)j]
tôi j
Thay phiên, chúng tôi có hệ số hóa
trong đó , và
Cov (Z~Tôi) = D ( σ, τ) [K- R ( ρ ) R ( ρ)T] D ( σ, τ) ,(1)
D(σ,τ)=diag(σ2,στ,τ2)R(ρ)=(1,ρ,1)TK=⎛⎝⎜κ04κ31κ22κ31κ22κ13κ22κ13κ04⎞⎠⎟.
Do đó, chúng ta có và , đại diện cho phương sai mẫu của và hiệp phương sai của tương quan với nhau trừ khi . Khi là đa biến thông thường, điều này chỉ xảy ra khi .Z11Z12XX,Yρ=κ31Viρ=0
2 Hệ số tương quan
Bây giờ hãy xem xét phép biến đổi trên . Điều này cung cấp phân phối bivariate của hệ số tương quan mẫu và phương sai mẫu của x. Theo phương pháp delta và tính quy tắc tiệm cận của ,
trong đó là jacobian của .g(x,y,z)=(x,yz√x√)Sn~Snn−−√(g(Sn~) - ( ρ,σ2)T)→N( 0 , J (Σ~)TΛ~J (Σ~) ) ,
J (Σ~) = [ ∇gT1, ∇gT2]Tg
Tôi thấy (mặc dù bạn có thể muốn kiểm tra đại số của mình ..) rằng độ dốc của thành phần thứ hai của là
Vậy
g∇g2(σ2, ρ στ,τ2) = =( -ρ2σ2,1στ, -ρ2τ2)T,
J( σ, Ρ , τ) = =⎛⎝⎜⎜100-ρ2σ21στ-ρ2τ2⎞⎠⎟⎟.
Đặt tất cả cùng với hệ số nhân trong phương trình (1)
J( σ, Ρ , τ)TD ( σ, τ) [ K- R ( ρ ) R ( ρ)T] D ( σ, τ) J( σ, Ρ , τ) .
Cắm một số số dễ sử dụng, giả sử và , chúng tôi sẽ có
trong đó nói chung là một số ma trận dày đặc. Được phép của Mathicala, tôi đã mở rộng sản phẩm này theo các mục trong và kể lại bên dướiσ= τ= 1ρ = .5J( σ, Ρ , τ)TD ( σ, τ) [ K- R ( ρ ) R ( ρ)T] D ( σ, τ) J( σ, Ρ , τ)= (- 1 / 4110- 1 / 40) Tôi Ω tôi⎛⎝⎜- 1 / 41- 1 / 4100⎞⎠⎟= Q ,
Ω = K- R ( ρ ) R ( ρ)TKQ12
n ×Q12= n × Cov ( r ,S2x) = =κ31-κ04+κ224( 2 )
đó là một biểu hiện mờ đục về các khoảnh khắc hỗn hợp, nhưng chắc chắn không có vẻ như nó sẽ bằng không, nói chung.
3 Chuyên cho trường hợp bình thường
Định lý Isserlis cung cấp một cách để rút ra các khoảnh khắc hỗn hợp của một Gaussian. Một lần nữa giả sử và , chúng ta sẽ có
, do đó,
, khi bạn quan sát.σ= τ= 1ρ = .5κ31=3/2,κ04=3,κ22=3/2Q12= = 3/2−(3+3/2)/4=3/8>0
4 Mô phỏng và ví dụ
Dưới đây tìm một phương trình xác minh mô phỏng (1). Đối với và (màu đỏ và màu xanh, tương ứng) quan sát iid từ một bình thường đa biến, tôi lấy được các hiệp phương sai của bởi bootstrap. Hiệp phương sai giữa và được vẽ trên trục y khi thay đổi từ đến . Giá trị lý thuyết từ phương trình (1) và sử dụng các sự kiện về khoảnh khắc bậc 4 của Gaussian bivariate được vẽ trong một đường màu đen nét đứt.n = 100n = 1000n--√S~nSx ySx xρ- .9.9
Một bài tập thú vị là cố gắng tìm một họ copula mà với bất kỳ giá trị nào của sẽ hiển thị ...ρCov (Sx y,Sx x) = 0
library(mvtnorm)
library(tidyverse)
library(boot)
params = expand.grid(sx = 1, sy = 1, n = c(100, 1000), rho = seq(-.9, .9, by = .1), replicate = 1:10) %>% mutate(k04 = 3*sx^4, k31 = 3*sx*rho*sx*sy, q12 = k31 - rho*sx*sy)
Sn_tilde = function(dat, idx){
Sn = cov(dat[idx,,drop =FALSE])*sqrt(length(idx))
Sn[upper.tri(Sn, diag = TRUE)]
}
out = params %>% group_by_all() %>% do({
x = with(., rmvnorm(n = .$n, sigma = matrix(c(sx^2, rho*sx*sy,
rho*sx*sy, sy^2), nrow = 2)))
colnames(x) = c('X', 'Y')
b = boot(x, Sn_tilde, R = 500)
cov_Sn = cov(b$t)
rownames(cov_Sn) = colnames(cov_Sn) = c('Sxx', 'Sxy', 'Syy')
as_tibble(cov_Sn, rownames = 'j')
})
ggplot(filter(out, j == 'Sxx'), aes(x = rho, y = Sxy, color = factor(n))) + geom_point(size = .5, alpha = .5) + geom_smooth(method = 'lm') + geom_line(data = filter(params, replicate == 1, n == 100), aes(y = q12), lty = 2, color = 'black') + theme_minimal() + ylab('Cov(Sxy, Sxx)')
1 Điều này sử dụng rất nhiều ghi chú bài giảng của Michael Perlman về thống kê xác suất và toán học, điều mà tôi thực sự mong muốn có sẵn dưới dạng điện tử để tôi có thể thay thế tôi khi chúng bị hao mòn ...