Giá trị kỳ vọng của tương quan giả


12

Chúng tôi vẽ mẫu, mỗi mẫu có kích thước , độc lập với phân phối Bình thường .Nn(μ,σ2)

Từ các mẫu sau đó chúng tôi chọn 2 mẫu có tương quan Pearson (tuyệt đối) cao nhất với nhau.N

Giá trị mong đợi của mối tương quan này là gì?

Cảm ơn [PS Đây không phải là bài tập về nhà]


2
(+1) Nó sẽ làm cho một câu hỏi bài tập về nhà khá khó khăn :-). Bạn có cần một câu trả lời chung chung hoặc có thể (có thể) tập trung sự chú ý của bạn vào các giá trị cụ thể của N hoặc n không? Ví dụ, có thể phát triển các xấp xỉ tốt khi n lớn hơn N ; các xấp xỉ khác nhau sẽ là cần thiết trong các trường hợp khác.
whuber

1
Tôi đã hy vọng cho một câu trả lời chung chung, nhưng một trong những nơi giả định n>>N sẽ là OK! Đối với các giá trị cụ thể của Nn , sẽ không thú vị lắm, vì tôi có thể xem xét các trường hợp cụ thể như vậy bằng mô phỏng (đó là những gì tôi đang làm vào lúc này), nhưng nó vẫn có thể được quan tâm.
P Sellaz

1
Tôi nghĩ rằng một giải pháp chung của bất kỳ tiện ích thực tế nào có lẽ là không thể, mặc dù tôi có thể bị nhầm lẫn. Nó khá liên quan đến một số vấn đề mở tại giao diện của hình học và đại số tuyến tính. Trong các ứng dụng, nhu cầu thông tin về số lượng như vậy phát sinh, ví dụ, trong cảm biến nén.
Đức hồng y

1
FWIW, đây là kết quả của một mô phỏng tôi vừa chạy: sử dụng Bình thường (0,1), tôi thấy rằng mối tương quan trung bình, ρ (hơn 1000 mô phỏng) và số lượng mẫu N có liên quan xấp xỉ bằng
ρ=0.025+0.113ln(N)0.008ln(N)2
cho n=1004Nnsử dụng mô hình hồi quy tuyến tính. Mô hình phù hợp và chẩn đoán thông thường là khá tốt. Tôi cũng thấy rằng mối tương quan trung bình được phân phối bình thường (mặc dù hơi lệch phải).
P Sellaz

Câu trả lời:


9

Tôi tìm thấy bài viết sau, trong đó giải quyết vấn đề này: Jiang, Tiefeng (2004). Các bản phân phối tiệm cận của các mục lớn nhất của ma trận tương quan mẫu. Biên niên sử về xác suất ứng dụng, 14 (2), 865-880

Giang thấy sự phân bố tiệm cận của thống kê , trong đó ρ i j là mối tương quan giữa các vectơ ngẫu nhiên thứ ij có độ dài n (với i j ), làLn=max1i<jN|ρij|ρijijnij

Nơi một = lim n n / N được giả định tồn tại trong giấy và N là một hàm của n .

limnPr[nLn24logn+log(log(n))y]=exp(1a28πexp(y/2)),
a=limnn/NNn

Rõ ràng kết quả này đúng với bất kỳ phân phối phân phối nào có đủ số lượng thời điểm hữu hạn ( Chỉnh sửa: Xem bình luận của @ cardinal bên dưới). Jiang chỉ ra rằng đây là một phân phối giá trị cực đoan loại I. Vị trí và quy mô là

σ=2,μ=2log(1a28π).

Giá trị kỳ vọng của phân phối Type-I EV là , nơi γ biểu thị hằng số Euler. Tuy nhiên, như đã lưu ý trong các ý kiến, sự hội tụ trong phân phối không, tự bản thân nó, đảm bảo sự hội tụ của các phương tiện với phân phối giới hạn.μ+σγγ

Nếu chúng ta có thể hiển thị kết quả như vậy trong trường hợp này, thì giá trị mong đợi tiệm cận của sẽ lànLn24logn+log(log(n))

limnE[nLn24logn+log(log(n))]=2log(a28π)+2γ.

Lưu ý rằng điều này sẽ cung cấp giá trị mong đợi tiệm cận của tương quan bình phương lớn nhất, trong khi câu hỏi yêu cầu giá trị dự kiến ​​của tương quan tuyệt đối lớn nhất. Vì vậy, không phải 100% ở đó, nhưng đóng cửa.

Tôi đã thực hiện một vài mô phỏng ngắn khiến tôi nghĩ rằng 1) có vấn đề với mô phỏng của tôi (có khả năng), 2) có vấn đề với phiên mã / đại số của tôi (cũng có thể), hoặc 3) phép gần đúng không hợp lệ đối với giá trị của N tôi đã sử dụng. Có lẽ OP có thể cân nhắc với một số kết quả mô phỏng bằng cách sử dụng xấp xỉ này?nN


2
Và một bên: Tôi thực sự thích câu hỏi này - tôi đã tự hỏi về câu hỏi này trước đây. Tôi đã rất ngạc nhiên bởi sự kết nối với bản phân phối Loại I - Tôi thấy điều đó khá tuyệt. Tôi chỉ ước tôi hiểu toán học dẫn đến nó ...
jmtroos

1
(+1) Tìm thấy tốt đẹp !! Tôi nghĩ rằng chúng ta có thể giả sử rằng căn bậc hai dương của này tương đương với giá trị mong đợi của tương quan tuyệt đối lớn nhất? Trong biểu hiện của bạn cho sự mong đợi, chúng ta không thể lấy ra tất cả các phần liên quan đến n để mang lại: E [ L 2 n ] = 1Lnn ? Dù sao, tôi đã so sánh điều này với mô phỏng của tôi và nó trông khá gần! Mã R của tôi thực sự rất cẩu thả, vì vậy tôi sẽ cố gắng dọn dẹp nó sau hôm nay hoặc ngày mai và đăng nó ...
E[Ln2]=1n{2log(N2n28π)+2γ+4lognlog(log(n))}
P Sellaz

BTW, bài báo có sẵn trực tiếp từ đây projecteuclid.org/DPubS/Rep
repository / 1.0 / F

3
n/pγ(0,)
Đức Hồng Y

3
{Ln}χ12

2

Ngoài câu trả lời do @jmtroos cung cấp, dưới đây là chi tiết mô phỏng của tôi và so sánh với dẫn xuất của @ jmtroos về sự kỳ vọng từ Jiang (2004) , đó là:

E[Ln2]= =1n{2đăng nhập(N2n2số 8π)+2γ+4đăng nhậpn-đăng nhập(đăng nhập(n))}

Các giá trị của kỳ vọng này dường như cao hơn các giá trị mô phỏng cho nhỏ N và dưới đây cho lớn N và chúng có vẻ hơi phân kỳ Ntăng. Tuy nhiên, sự khác biệt giảm dần để tăngn, như chúng ta mong đợi khi bài báo tuyên bố rằng sự phân phối là không có triệu chứng. Tôi đã thử nhiềun[100,500]. Mô phỏng dưới đây sử dụngn= =200. Tôi khá mới với R, vì vậy mọi gợi ý hoặc đề xuất để làm cho mã của tôi tốt hơn sẽ được chào đón nồng nhiệt.

set.seed(1)

ns <- 500
# number of simulations for each N

n <- 200
# length of each vector

mu <- 0
sigma <- 1
# parameters for the distribution we simulate from

par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns

y<-vector(mode = "numeric")
#vector to store the mean correlations

k<- 1
#index for y

for (N in x) {
# loop over a range of N

    dt <- matrix(nrow=n,ncol=N)

    J <- vector(mode = "numeric")
    # vector to store the simulated largest absolute 
    # correlations for each N

    for (j in 1:ns) {
    # for each N, simulated ns times    

      for (i in 1:N) {
        dt[,i] <- rnorm(n,mu,sigma)
      }
      # perform the simulation

      M<-matrix(cor(dt),nrow=N,ncol=N)
      m <- M
      diag(m) <- NA
      J[j] <- max(abs(m), na.rm=TRUE)   
      # obtain the largest absolute correlation
      # these 3 lines came from stackoverflow
  }

    hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4))) 
    y[k]<-mean(J)
    k=k+1
}

lm1 <- lm(y~log(x))
summary(lm1)

logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations

# Jiang 2004 paper, computation:

gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)


plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation

Xem ý kiến ​​của tôi cho câu trả lời khác, có thể (hoặc có thể không) giúp giải thích một số khác biệt bạn lưu ý.
Đức hồng y
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.