Giá trị kỳ vọng của tương quan giả

Chúng tôi vẽ mẫu, mỗi mẫu có kích thước , độc lập với phân phối Bình thường . $N$ $n$ $(\mu,\sigma^2)$

Từ các mẫu sau đó chúng tôi chọn 2 mẫu có tương quan Pearson (tuyệt đối) cao nhất với nhau. $N$

Giá trị mong đợi của mối tương quan này là gì?

Cảm ơn [PS Đây không phải là bài tập về nhà]

— P Sellaz
nguồn

(+1) Nó sẽ làm cho một câu hỏi bài tập về nhà khá khó khăn :-). Bạn có cần một câu trả lời chung chung hoặc có thể (có thể) tập trung sự chú ý của bạn vào các giá trị cụ thể của

N

$N$ hoặc

n

$n$ không? Ví dụ, có thể phát triển các xấp xỉ tốt khi

n

$n$ lớn hơn

N

$N$ ; các xấp xỉ khác nhau sẽ là cần thiết trong các trường hợp khác.

— whuber

Tôi đã hy vọng cho một câu trả lời chung chung, nhưng một trong những nơi giả định

n >> N

$n>>N$ sẽ là OK! Đối với các giá trị cụ thể của

N

$N$ và

n

$n$ , sẽ không thú vị lắm, vì tôi có thể xem xét các trường hợp cụ thể như vậy bằng mô phỏng (đó là những gì tôi đang làm vào lúc này), nhưng nó vẫn có thể được quan tâm.

— P Sellaz

Tôi nghĩ rằng một giải pháp chung của bất kỳ tiện ích thực tế nào có lẽ là không thể, mặc dù tôi có thể bị nhầm lẫn. Nó khá liên quan đến một số vấn đề mở tại giao diện của hình học và đại số tuyến tính. Trong các ứng dụng, nhu cầu thông tin về số lượng như vậy phát sinh, ví dụ, trong cảm biến nén.

— Đức hồng y

FWIW, đây là kết quả của một mô phỏng tôi vừa chạy: sử dụng Bình thường (0,1), tôi thấy rằng mối tương quan trung bình,

ρ

$\rho$ (hơn 1000 mô phỏng) và số lượng mẫu

N

$N$ có liên quan xấp xỉ bằng

ρ = 0.025 + 0.113 \ln (N) - 0.008 \ln (N)^{2}

$\rho=0.025+0.113\ln(N)-0.008\ln(N)^2$ cho

n = 100

$n=100$ và

4 \leq N \leq n

$4\leq N \leq n$ sử dụng mô hình hồi quy tuyến tính. Mô hình phù hợp và chẩn đoán thông thường là khá tốt. Tôi cũng thấy rằng mối tương quan trung bình được phân phối bình thường (mặc dù hơi lệch phải).

— P Sellaz

Câu trả lời:

Tôi tìm thấy bài viết sau, trong đó giải quyết vấn đề này: Jiang, Tiefeng (2004). Các bản phân phối tiệm cận của các mục lớn nhất của ma trận tương quan mẫu. Biên niên sử về xác suất ứng dụng, 14 (2), 865-880

Giang thấy sự phân bố tiệm cận của thống kê , trong đó là mối tương quan giữa các vectơ ngẫu nhiên thứ và có độ dài (với ), là $L_n = \max_{1\leq i<j\leq N} |\rho_{ij}|$ $\rho_{ij}$ $i$ $j$ $n$ $i\neq j$

Nơi được giả định tồn tại trong giấy và là một hàm của .

lim_{n \to \infty} Pr [n L_{n}^{2} - 4 \log n + \log (\log (n)) \leq y] = \exp (- \frac{1}{a^{2} \sqrt{8 π}} \exp (- y / 2)),

$\lim_{n \to \infty} \Pr[ nL_n^2 - 4\log n + \log(\log(n)) \leq y] = \exp\left(-\frac{1}{a^2\sqrt{8\pi}}\exp(-y/2)\right) \,,$

a = lim_{n \to \infty} n / N

$a = \lim_{n\to\infty} n/N$

N

$N$

n

$n$

Rõ ràng kết quả này đúng với ~~bất kỳ phân phối phân~~ phối nào có đủ số lượng thời điểm hữu hạn ( Chỉnh sửa: Xem bình luận của @ cardinal bên dưới). Jiang chỉ ra rằng đây là một phân phối giá trị cực đoan loại I. Vị trí và quy mô là

σ = 2, μ = 2 \log (\frac{1}{a^{2} \sqrt{8 π}}) .

$\sigma=2,\quad\mu = 2\log\left( \frac{1}{a^2\sqrt{8\pi}} \right).$

Giá trị kỳ vọng của phân phối Type-I EV là , nơi biểu thị hằng số Euler. Tuy nhiên, như đã lưu ý trong các ý kiến, sự hội tụ trong phân phối không, tự bản thân nó, đảm bảo sự hội tụ của các phương tiện với phân phối giới hạn. $\mu + \sigma \gamma$ $\gamma$

Nếu chúng ta có thể hiển thị kết quả như vậy trong trường hợp này, thì giá trị mong đợi tiệm cận của sẽ là $n L_n^2 -4\log n + \log(\log(n))$

lim_{n \to \infty} E [n L_{n}^{2} - 4 \log n + \log (\log (n))] = - 2 \log (a^{2} \sqrt{8 π}) + 2 γ .

$\lim_{n\to\infty} \mathbb E\left[ nL_n^2 - 4\log n + \log(\log(n)) \right] = -2\log\left(a^2\sqrt{8\pi} \right) + 2\gamma \,.$

Lưu ý rằng điều này sẽ cung cấp giá trị mong đợi tiệm cận của tương quan bình phương lớn nhất, trong khi câu hỏi yêu cầu giá trị dự kiến của tương quan tuyệt đối lớn nhất. Vì vậy, không phải 100% ở đó, nhưng đóng cửa.

Tôi đã thực hiện một vài mô phỏng ngắn khiến tôi nghĩ rằng 1) có vấn đề với mô phỏng của tôi (có khả năng), 2) có vấn đề với phiên mã / đại số của tôi (cũng có thể), hoặc 3) phép gần đúng không hợp lệ đối với giá trị của và tôi đã sử dụng. Có lẽ OP có thể cân nhắc với một số kết quả mô phỏng bằng cách sử dụng xấp xỉ này? $n$ $N$

— jmtroos
nguồn

Và một bên: Tôi thực sự thích câu hỏi này - tôi đã tự hỏi về câu hỏi này trước đây. Tôi đã rất ngạc nhiên bởi sự kết nối với bản phân phối Loại I - Tôi thấy điều đó khá tuyệt. Tôi chỉ ước tôi hiểu toán học dẫn đến nó ...

— jmtroos

(+1) Tìm thấy tốt đẹp !! Tôi nghĩ rằng chúng ta có thể giả sử rằng căn bậc hai dương của

này tương đương với giá trị mong đợi của tương quan tuyệt đối lớn nhất? Trong biểu hiện của bạn cho sự mong đợi, chúng ta không thể lấy ra tất cả các phần liên quan đến

để mang lại:

L_{n}

$L_n$

n

$n$

? Dù sao, tôi đã so sánh điều này với mô phỏng của tôi và nó trông khá gần! Mã R của tôi thực sự rất cẩu thả, vì vậy tôi sẽ cố gắng dọn dẹp nó sau hôm nay hoặc ngày mai và đăng nó ...

E [L_{n}^{2}] = \frac{1}{n} {2 \log (\frac{N^{2}}{n^{2} \sqrt{8 π}}) + 2 γ + 4 \log n - \log (\log (n))}

$E\left[L_n^2 \right]= \frac{1}{n} \left \{ 2\log\left( \frac{N^2}{n^2\sqrt{8\pi}} \right) + 2\gamma+ 4\log n - \log(\log(n))\right \}$

— P Sellaz

BTW, bài báo có sẵn trực tiếp từ đây projecteuclid.org/DPubS/Rep

— repository / 1.0 / F

n / p \to γ \in (0, \infty)

$n/p \to \gamma \in (0,\infty)$

— Đức Hồng Y

{L_{n}}

$\{L_n\}$

χ_{1}^{2}

$\chi^2_1$

Ngoài câu trả lời do @jmtroos cung cấp, dưới đây là chi tiết mô phỏng của tôi và so sánh với dẫn xuất của @ jmtroos về sự kỳ vọng từ Jiang (2004) , đó là:

E [L_{n}^{2}] = = \frac{1}{n} {2 đăng nhập (\frac{N^{2}}{n^{2} \sqrt{số 8 π}}) + 2 γ + 4 đăng nhập n - đăng nhập (đăng nhập (n))}

$E\left[L_n^2 \right]= \frac{1}{n} \left \{ 2\log\left( \frac{N^2}{n^2\sqrt{8\pi}} \right) + 2\gamma+ 4\log n - \log(\log(n))\right \}$

Các giá trị của kỳ vọng này dường như cao hơn các giá trị mô phỏng cho nhỏ $N$ và dưới đây cho lớn $N$ và chúng có vẻ hơi phân kỳ $N$ tăng. Tuy nhiên, sự khác biệt giảm dần để tăng $n$ , như chúng ta mong đợi khi bài báo tuyên bố rằng sự phân phối là không có triệu chứng. Tôi đã thử nhiều $n \in [100,500]$ . Mô phỏng dưới đây sử dụng $n=200$ . Tôi khá mới với R, vì vậy mọi gợi ý hoặc đề xuất để làm cho mã của tôi tốt hơn sẽ được chào đón nồng nhiệt.

set.seed(1)

ns <- 500
# number of simulations for each N

n <- 200
# length of each vector

mu <- 0
sigma <- 1
# parameters for the distribution we simulate from

par(mfrow=c(5,5))
x<-trunc(seq(from=5,to=n, length=20))
#vector of Ns

y<-vector(mode = "numeric")
#vector to store the mean correlations

k<- 1
#index for y

for (N in x) {
# loop over a range of N

    dt <- matrix(nrow=n,ncol=N)

    J <- vector(mode = "numeric")
    # vector to store the simulated largest absolute 
    # correlations for each N

    for (j in 1:ns) {
    # for each N, simulated ns times    

      for (i in 1:N) {
        dt[,i] <- rnorm(n,mu,sigma)
      }
      # perform the simulation

      M<-matrix(cor(dt),nrow=N,ncol=N)
      m <- M
      diag(m) <- NA
      J[j] <- max(abs(m), na.rm=TRUE)   
      # obtain the largest absolute correlation
      # these 3 lines came from stackoverflow
  }

    hist(J,main=paste("N=",N, " n=",n, " N(0,1)", "\nmean=",round(J[j],4))) 
    y[k]<-mean(J)
    k=k+1
}

lm1 <- lm(y~log(x))
summary(lm1)

logx_sq=log(x)^2
lm2<-lm(y~log(x)+logx_sq)
summary(lm2)
# linear models for these simulations

# Jiang 2004 paper, computation:

gamma = 0.5772
yy <- vector(mode = "numeric")
yy <- sqrt((2*log((x^2)/(sqrt(8*pi)*n^2)) + 2*gamma-(-4*log(n)+log(log(n))))/n)


plot(x,yy)
# plot the simulated correlations
points(x,y,col='red')
# add the points using the expectation

— P Sellaz
nguồn

Xem ý kiến của tôi cho câu trả lời khác, có thể (hoặc có thể không) giúp giải thích một số khác biệt bạn lưu ý.

— Đức hồng y