Tính toán kỳ vọng của hệ số tương quan hoặc


8

Tôi đang đăng lại một câu hỏi từ math.stackexchange.com , tôi nghĩ rằng câu trả lời hiện tại trong math.se là không đúng.

Chọn số từ một tập , là số thứ được chọn và là thứ hạng của trong số. Các lựa chọn là không thay thế. phải lúc nào cũng nhỏ hơn so với . Thứ hạng là thứ tự của một số sau khi số được sắp xếp theo thứ tự tăng dần.n{1,2,...,U}yiixiyinnUn

Chúng ta có thể nhận được điểm dữ liệu , và một dòng phù hợp nhất cho các điểm dữ liệu này có thể được tìm thấy bằng hồi quy tuyến tính. (hệ số tương quan) là độ tốt của đường phù hợp, tôi muốn tính toán hoặc (tương quan xác định) .n(x1,y1),(x2,y2),...,(xn,yn)rxyE(rxy)E(rxy2)

Nếu không thể tính toán , ước tính hoặc giới hạn dưới vẫn ổn.E[rxy]

Đã cập nhật: Bằng cách tính hệ số tương quan mẫu bằng cách sử dụng dữ liệu được tạo ngẫu nhiên, chúng ta có thể thấy khá gần với 1, vì vậy tôi muốn chứng minh nó từ quan điểm lý thuyết, hoặc về mặt lý thuyết, dữ liệu được tạo bởi phương pháp trên là rất tuyến tính.rxy

Cập nhật: Có thể có được phân phối hệ số tương quan mẫu?


Xin vui lòng gửi một liên kết đến câu hỏi math.SE. Thông thường không tốt để đăng bài trừ khi thời gian đáng kể đã trôi qua.
hồng y

Có thể chọn cùng một số hai lần? Là n nhỏ hơn hoặc lớn hơn U?
Nick Sabbe

1
Dưới đây là những câu hỏi trước về math.SE: math.stackexchange.com/questions/32569/...
hồng y

@Nick Sabbe Việc lựa chọn là không thay thế. n luôn nhỏ hơn U.
Fan Zhang

1
@Fan Các kỹ thuật áp dụng sẽ bao gồm các dạng bậc hai trong các biến ngẫu nhiên ( stats.stackexchange.com/questions/9220 ), "phương thức delta" để ước tính các khoảnh khắc của các hàm của các biến ngẫu nhiên; phân phối số liệu thống kê đơn hàng cho các biến thống nhất; mối quan hệ giữa các khoảng cách giữa các biến thống nhất và phân bố mũ, và thậm chí có thể là các phương pháp yên ngựa, xấp xỉ bình thường, Định lý giới hạn trung tâm, v.v.
whuber

Câu trả lời:


1

Sắp xếp lại vấn đề theo các biến mới, sao cho 1z1<z2<<znU. Sau đó chúng tôi có(xi,yi)=(xi,zxi), như @whuber đã chỉ ra trong các bình luận. Vì vậy, bạn đang thoái lui một cách hiệu quảzj trên jrxy=rxz. Vì vậy, nếu chúng ta có thể làm việc phân phối biên chozjvà chỉ ra rằng về cơ bản là tuyến tính trong j vấn đề đã xong, và chúng ta sẽ có rxy1.

Trước tiên chúng ta cần phân phối chung cho z1,,zn. Điều này khá đơn giản, sau khi bạn có lời giải, nhưng tôi thấy nó không thẳng tiến trước khi tôi làm toán. Chỉ là một bài học ngắn về việc làm toán trả hết - vì vậy tôi sẽ trình bày các bài toán trước, sau đó là câu trả lời dễ dàng.

Bây giờ, phân phối chung ban đầu là p(y1,,yn)1. Thay đổi các biến chỉ đơn giản là dán lại những thứ cho xác suất rời rạc, và do đó xác suất vẫn không đổi. Tuy nhiên, việc ghi nhãn không phải là 1-1, do đó chúng ta không thể đơn giản viếtp(z1,,zn)=(Un)!U!. Thay vào đó, chúng ta có

p(z1,,zn)=1C1z1<z2<<znU

Và chúng ta có thể tìm thấy C bằng cách chuẩn hóa

C= =Σzn= =nBạnΣzn-1= =n-1zn-1Giáo dụcΣz2= =2z3-1Σz1= =1z2-1(1)= =Σzn= =nBạnΣzn-1= =n-1zn-1Giáo dụcΣz2= =2z3-1(z2-1)
=zn=nUzn1=n1zn1z3=2z41(z31)(z32)2=zn=nUz4=4z51(z41)(z42)(z43)(2)(3)
=zn=nUzn1=n1zn1zj=jzj+11(zj1j1)=(Un)

Điều này cho thấy tỷ lệ dán nhãn lại bằng (Un)!U!(Un)=1n! - cho mỗi (z1,,zn)n! (y1,,yn)các giá trị. Có ý nghĩa bởi vì bất kỳ hoán vị của lables trênyi dẫn đến cùng một bộ xếp hạng zicác giá trị. Bây giờ, phân phối biênz1, chúng tôi nhắc lại ở trên nhưng với tổng số z1 giảm, và một phạm vi tổng kết khác nhau cho phần còn lại, cụ thể là, mức tối thiểu thay đổi từ (2,,n) đến (z1+1,,z1+n1)và chúng tôi nhận được:

p(z1)=zn=z1+n1Uzn1=z1+n2zn1z2=z1+1z31p(z1,z2,,zn)=(Uz1n1)(Un)

Với sự hỗ trợ z1{1,2,,U+1n}. Hình thức này, kết hợp với một chút trực giác cho thấy rằng phân phối biên của bất kỳzj có thể được lý giải bằng cách:

  1. lựa chọn j1 các giá trị dưới đây zj, có thể được thực hiện trong (zj1j1) cách (nếu zjj);
  2. chọn giá trị zj, có thể được thực hiện 1 cách; và
  3. lựa chọn nj các giá trị trên zj có thể được thực hiện trong (Uzjnj) cách (nếu zjU+jn)

Phương pháp suy luận này sẽ dễ dàng khái quát hóa cho các phân phối chung, chẳng hạn như p(zj,zk)(có thể được sử dụng để tính giá trị dự kiến ​​của hiệp phương sai mẫu nếu bạn muốn). Do đó chúng ta có:

p(zj)=(zj1j1)(Uzjnj)(Un)jzjU+jnp(zj,zk)=(zj1j1)(zkzj1kj1)(Uzknk)(Un)jzjzk+jkU+jn

Bây giờ cận biên là pdf của phân phối siêu bội âm với các tham sốk=j,r=n,N=U(về mặt ký hiệu của bài báo). Bây giờ điều này rõ ràng không chính xác tuyến tính trongj, nhưng kỳ vọng cận biên cho zj

E(zj)=jU+1n+1

Đây thực sự là tuyến tính trong jvà bạn sẽ mong đợi hệ số beta của U+1n+1 từ hồi quy, và chặn bằng không.

CẬP NHẬT

Tôi dừng câu trả lời của tôi một chút ngắn trước đó. Bây giờ đã hoàn thành hy vọng một câu trả lời đầy đủ hơn

Để j¯=n+12z¯=1nj=1nzj, bình phương dự kiến ​​của hiệp phương sai mẫu giữa jzj được đưa ra bởi:

E[sxz2]=E[1nj=1n(jj¯)(zjz¯)]2
=1n2[j=1n(jj¯)2E(zj2)+2k=2nj=1k1(jj¯)(kj¯)E(zjzk)]

Vì vậy chúng ta cần E(zj2)=V(zj)+E(zj)2=Aj2+Bj, Ở đâu A=(U+1)(U+2)(n+1)(n+2)B=(U+1)(Un)(n+1)(n+2)(sử dụng công thức trong tệp pdf). Vì vậy, số tiền đầu tiên trở thành

j=1n(jj¯)2E(zj2)=j=1n(j22jj¯+j¯2)(Aj2+Bj)
=n(n1)(U+1)120(U(2n+1)+(3n1))

Chúng tôi cũng cần E(zjzk)=E[zj(zkzj)]+E(zj2).

E[zj(zkzj)]=zk=kU+knzj=jzk+jkzj(zkzj)p(zj,zk)
=j(kj)zk=kU+knzj=jzk+jk(zjj)(zkzjkj)(Uzknk)(Un)=j(kj)zk=kU+kn(zk+1k+1)(U+1(zk+1)nk)(Un)
=j(kj)(U+1n+1)(Un)=j(kj)U+1n+1
E(zjzk)=jkU+1n+1+j2(U+1)(Un)(n+1)(n+2)+j(U+1)(Un)(n+1)(n+2)

Và tổng thứ hai là:

2k=2nj=1k1(jj¯)(kj¯)E(zjzk)
=n(U+1)(n1)720(n+2)(6(Un)(n32n29n2)+(n+2)(5n324n235n+6))

Và sau một số thao tác khá tẻ nhạt, bạn sẽ nhận được giá trị kỳ vọng của hiệp phương sai bình phương của:

E[sxz2]=(n1)(n2)U(U+1)120(U+1)(n1)(n3+2n2+11n+22)720(n+2)

Bây giờ nếu chúng ta có U>>n, sau đó thuật ngữ đầu tiên chiếm ưu thế O(U2n2), trong khi thuật ngữ thứ hai là O(Un3). Chúng ta có thể chỉ ra rằng thuật ngữ chi phối gần đúngE[sx2sz2]và chúng ta có một lý do lý thuyết khác tại sao mối tương quan pearson rất gần với 1 (ngoài thực tế là E(zj)j).

Bây giờ phương sai mẫu dự kiến ​​của j chỉ là phương sai mẫu, đó là sx2=1nj=1n(jj¯)2=(n+1)(n1)12. Phương sai mẫu dự kiến ​​chozj được đưa ra bởi:

E[sz2]=E[1nj=1n(zjz¯)2]=1nj=1nE(zj2)[1nj=1nE(zj)]2
=A(n+1)(2n+1)6+B(n+1)2(U+1)24
=(U+1)(U1)12

Kết hợp mọi thứ lại với nhau, và lưu ý rằng E[sx2sz2]=sx2E[sz2], chúng ta có:

E[sx2sz2]=(n+1)(n1)(U+1)(U1)144(n1)(n2)U(U+1)120E[sxz2]

Đó là gần giống như E[rxz2]1


Tôi hiểu câu trả lời của bạn và câu hỏi của tôi là làm thế nào để có được kỳ vọng về hệ số tương quan từ trạng thái hiện tại của bạn.
Fan Zhang

Tôi xin lỗi vì tôi chỉ thấy câu trả lời ngày hôm nay. Một điều tôi nghĩ cần được làm rõ tại sao khiE[sx2sz2]E[sxz2], then E[rxz2]1.
Fan Zhang

I think the last step is wrong. E[X/Y] is not equal to E[X]/E[Y].
Fan Zhang

@FanZhang - The last step is approximately correct. This is because we can expand g(X,Y)=XY to first order about (E[X],E[Y]). And we get XYE[X]E[Y]+(XE[X])1E[Y](YE[Y])E[X]E[Y]2. Because E(XE[X])=0 for any random variable whose expectation exists, we get E(XY)E[X]E[Y].
probabilityislogic

Thank you. And what is this kind of approximation is called?
Fan Zhang

3

If you only want to show rxy2 must be close to 1, and compute a lower bound for it, it's straightforward, because that means for given U and n you only need to maximize the variance of the residuals. This can be done in exactly four symmetric ways. The two extremes (lowest and highest possible correlations) are illustrated for U=20,n=9.

Extreme correlation plots for U=20, n=9

For large values of U and appropriate values of n, rxy2 can actually get close to 0. For example, with n=100 and very large values of Un, rxy20.03 in the worst case.


So, we're trying to show E(rxy2) is close to 1 (or that we can expect to find nearly a straight line) [I'm working on this problem with Zhang Fan]. While rxy2 bad in some cases, there should be relatively few of these cases. One hope for resolving this problem is therefore to bound the number of cases in which e.g. rxy20.99 (or some other bound).
Douglas S. Stones

I'm hoping that 0.99 should be a reasonable bound to consider. E.g. if we compute some examples in R, we can consistently obtain cor(x,y)'s that are very close to 1. E.g. 0.9994561 is a typical result returned by: m <- 10^5; n <-10^3; list <- sample(1:m,size=n,replace=FALSE); list <- sort(list); cor(list,1:n);
Douglas S. Stones

@Douglas That suggests what might be a considerable simplification: by taking a target like 0.99, you can convert the ratio of quadratic forms appearing in rxy2 into a difference (by clearing the denominator) and then investigate the chance that the difference is positive. So now you're looking at the distribution of a quadratic form under uniformly random permutations: that's an accessible problem.
whuber

@Douglas, @Fan We can do some heuristics, too: asymptotically, the yi will look uniform, indicating r21 as U. Consider the Kolmogorov-Smirnov statistic D, for instance: using that as an upper bound for the residuals shows it is proportional to a (gross) overestimate of 1r2. Therefore r21 at least as fast as D0.
whuber

@whuber Do you have some more detailed description about Kolmogorov-Smirnov statistic D?
Fan Zhang
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.