Sắp xếp lại vấn đề theo các biến mới, sao cho 1 ≤z1<z2< ⋯ <zn≤ U. Sau đó chúng tôi có(xTôi,yTôi) = (xTôi,zxTôi), như @whuber đã chỉ ra trong các bình luận. Vì vậy, bạn đang thoái lui một cách hiệu quảzj trên jvà rx y= =rx z. Vì vậy, nếu chúng ta có thể làm việc phân phối biên chozjvà chỉ ra rằng về cơ bản là tuyến tính trong j vấn đề đã xong, và chúng ta sẽ có rx y~ 1.
Trước tiên chúng ta cần phân phối chung cho z1, ... ,zn. Điều này khá đơn giản, sau khi bạn có lời giải, nhưng tôi thấy nó không thẳng tiến trước khi tôi làm toán. Chỉ là một bài học ngắn về việc làm toán trả hết - vì vậy tôi sẽ trình bày các bài toán trước, sau đó là câu trả lời dễ dàng.
Bây giờ, phân phối chung ban đầu là p (y1, ... ,yn) Alpha 1. Thay đổi các biến chỉ đơn giản là dán lại những thứ cho xác suất rời rạc, và do đó xác suất vẫn không đổi. Tuy nhiên, việc ghi nhãn không phải là 1-1, do đó chúng ta không thể đơn giản viếtp (z1, ... ,zn) = =( U- n ) !Bạn!. Thay vào đó, chúng ta có
p (z1, ... ,zn) = =1C1 ≤z1<z2< ⋯ <zn≤ U
Và chúng ta có thể tìm thấy C bằng cách chuẩn hóa
C= =Σzn= nBạnΣzn - 1= n - 1zn- 1Giáo dụcΣz2= 2z3- 1Σz1= 1z2- 1( 1 ) =Σzn= nBạnΣzn - 1= n - 1zn- 1Giáo dụcΣz2= 2z3- 1(z2- 1 )
= =Σzn= nBạnΣzn - 1= n - 1zn- 1Giáo dụcΣz3= 2z4- 1(z3- 1 ) (z3- 2 )2= =Σzn= nBạnGiáo dụcΣz4= 4z5- 1(z4- 1 ) (z4- 2 ) (z4- 3 )(2)(3)
=∑zn=nU∑zn−1=n−1zn−1…∑zj=jzj+1−1(zj−1j−1)=(Un)
Điều này cho thấy tỷ lệ dán nhãn lại bằng (U−n)!U!(Un)=1n! - cho mỗi (z1,…,zn) có n! (y1,…,yn)các giá trị. Có ý nghĩa bởi vì bất kỳ hoán vị của lables trênyi dẫn đến cùng một bộ xếp hạng zicác giá trị. Bây giờ, phân phối biênz1, chúng tôi nhắc lại ở trên nhưng với tổng số z1 giảm, và một phạm vi tổng kết khác nhau cho phần còn lại, cụ thể là, mức tối thiểu thay đổi từ (2,…,n) đến (z1+1,…,z1+n−1)và chúng tôi nhận được:
p(z1)=∑zn=z1+n−1U∑zn−1=z1+n−2zn−1…∑z2=z1+1z3−1p(z1,z2,…,zn)=(U−z1n−1)(Un)
Với sự hỗ trợ z1∈{1,2,…,U+1−n}. Hình thức này, kết hợp với một chút trực giác cho thấy rằng phân phối biên của bất kỳzj có thể được lý giải bằng cách:
- lựa chọn j−1 các giá trị dưới đây zj, có thể được thực hiện trong (zj−1j−1) cách (nếu zj≥j);
- chọn giá trị zj, có thể được thực hiện 1 cách; và
- lựa chọn n−j các giá trị trên zj có thể được thực hiện trong (U−zjn−j) cách (nếu zj≤U+j−n)
Phương pháp suy luận này sẽ dễ dàng khái quát hóa cho các phân phối chung, chẳng hạn như p(zj,zk)(có thể được sử dụng để tính giá trị dự kiến của hiệp phương sai mẫu nếu bạn muốn). Do đó chúng ta có:
p(zj)=(zj−1j−1)(U−zjn−j)(Un)p(zj,zk)=(zj−1j−1)(zk−zj−1k−j−1)(U−zkn−k)(Un)j≤zj≤U+j−nj≤zj≤zk+j−k≤U+j−n
Bây giờ cận biên là pdf của phân phối siêu bội âm với các tham sốk=j,r=n,N=U(về mặt ký hiệu của bài báo). Bây giờ điều này rõ ràng không chính xác tuyến tính trongj, nhưng kỳ vọng cận biên cho zj Là
E(zj)=jU+1n+1
Đây thực sự là tuyến tính trong jvà bạn sẽ mong đợi hệ số beta của U+1n+1 từ hồi quy, và chặn bằng không.
CẬP NHẬT
Tôi dừng câu trả lời của tôi một chút ngắn trước đó. Bây giờ đã hoàn thành hy vọng một câu trả lời đầy đủ hơn
Để j¯=n+12và z¯¯¯=1n∑nj=1zj, bình phương dự kiến của hiệp phương sai mẫu giữa j và zj được đưa ra bởi:
E[S2x z] = E[1nΣj=1n(j−j¯)(zj−z¯¯¯)]2
=1n2[∑j=1n(j−j¯)2E(z2j)+2∑k=2n∑j=1k−1(j−j¯)(k−j¯)E(zjzk)]
Vì vậy chúng ta cần E(z2j)=V(zj)+E(zj)2=Aj2+Bj, Ở đâu A=(U+1)(U+2)(n+1)(n+2) và B=(U+1)(U−n)(n+1)(n+2)(sử dụng công thức trong tệp pdf). Vì vậy, số tiền đầu tiên trở thành
∑j=1n(j−j¯)2E(z2j)=∑j=1n(j2−2jj¯+j¯2)(Aj2+Bj)
=n(n−1)(U+1)120(U(2n+1)+(3n−1))
Chúng tôi cũng cần E(zjzk)=E[zj(zk−zj)]+E(z2j).
E[zj(zk−zj)]=∑zk=kU+k−n∑zj=jzk+j−kzj(zk−zj)p(zj,zk)
=j(k−j)∑zk=kU+k−n∑zj=jzk+j−k(zjj)(zk−zjk−j)(U−zkn−k)(Un)=j(k−j)∑zk=kU+k−n(zk+1k+1)(U+1−(zk+1)n−k)(Un)
=j(k−j)(U+1n+1)(Un)=j(k−j)U+1n+1
⟹E(zjzk)=jkU+1n+1+j2(U+1)(U−n)(n+1)(n+2)+j(U+1)(U−n)(n+1)(n+2)
Và tổng thứ hai là:
2∑k=2n∑j=1k−1(j−j¯)(k−j¯)E(zjzk)
=n(U+1)(n−1)720(n+2)(6(U−n)(n3−2n2−9n−2)+(n+2)(5n3−24n2−35n+6))
Và sau một số thao tác khá tẻ nhạt, bạn sẽ nhận được giá trị kỳ vọng của hiệp phương sai bình phương của:
E[s2xz]=(n−1)(n−2)U(U+1)120−(U+1)(n−1)(n3+2n2+11n+22)720(n+2)
Bây giờ nếu chúng ta có U>>n, sau đó thuật ngữ đầu tiên chiếm ưu thế O(U2n2), trong khi thuật ngữ thứ hai là O(Un3). Chúng ta có thể chỉ ra rằng thuật ngữ chi phối gần đúngE[s2xs2z]và chúng ta có một lý do lý thuyết khác tại sao mối tương quan pearson rất gần với 1 (ngoài thực tế là E(zj)∝j).
Bây giờ phương sai mẫu dự kiến của j chỉ là phương sai mẫu, đó là s2x=1n∑nj=1(j−j¯)2=(n+1)(n−1)12. Phương sai mẫu dự kiến chozj được đưa ra bởi:
E[s2z]=E[1n∑j=1n(zj−z¯¯¯)2]=1n∑j=1nE(z2j)−[1n∑j=1nE(zj)]2
=A(n+1)(2n+1)6+B(n+1)2−(U+1)24
=(U+1)(U−1)12
Kết hợp mọi thứ lại với nhau, và lưu ý rằng E[s2xs2z]=s2xE[s2z], chúng ta có:
E[s2xs2z]=(n+1)(n−1)(U+1)(U−1)144≈(n−1)(n−2)U(U+1)120≈E[s2xz]
Đó là gần giống như E[r2xz]≈1