Điều hấp dẫn về kết quả này là mức độ giống như phân phối của một hệ số tương quan. Có một lý do.
Giả sử là bivariate bình thường với tương quan bằng 0 và phương sai chung σ 2 cho cả hai biến. Vẽ một mẫu iid ( x 1 , y 1 ) , Mạnh , ( x n , y n ) . Người ta đã biết và sẵn sàng về mặt hình học (như Fisher đã làm cách đây một thế kỷ) rằng phân phối hệ số tương quan mẫu(X,Y)σ2(x1,y1),…,(xn,yn)
r=∑ni=1(xi−x¯)(yi−y¯)(n−1)SxSy
Là
f(r)=1B(12,n2−1)(1−r2)n/2−2, −1≤r≤1.
(Ở đây, như thường lệ, và ˉ y là phương tiện mẫu và S x và S y là căn bậc hai của các ước lượng phương sai không thiên vị.) B là hàm Beta , trong đóx¯y¯SxSyB
1B(12,n2−1)=Γ(n−12)Γ(12)Γ(n2−1)=Γ(n−12)π−−√Γ(n2−1).(1)
Để tính , chúng ta có thể khai thác tính bất biến của nó theo các phép quay trong R n xung quanh đường được tạo bởi ( 1 , 1 , Câu , 1 ) , cùng với sự bất biến của phân phối mẫu theo cùng một phép quay và chọn y i / S y là bất kỳ vectơ đơn vị nào có thành phần tổng bằng không. Một trong những vector tỷ lệ với v = ( n - 1 , - 1 , ... , - 1 ) . Độ lệch chuẩn của nó làrRn(1,1,…,1)yi/Syv=(n−1,−1,…,−1)
Sv=1n−1((n−1)2+(−1)2+⋯+(−1)2)−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√=n−−√.
Do đó, phải có cùng phân phối nhưr
∑ni=1(xi−x¯)(vi−v¯)(n−1)SxSv=(n−1)x1−x2−⋯−xn(n−1)Sxn−−√=n(x1−x¯)(n−1)Sxn−−√=n−−√n−1Z.
Do đó, tất cả những gì chúng ta cần là hủy bỏ để tìm phân phối của Z :rZ
fZ(z)=∣∣n−−√n−1∣∣f(n−−√n−1z)=1B(12,n2−1)n−−√n−1(1−n(n−1)2z2)n/2−2
cho . Công thức (1) cho thấy điều này giống hệt với câu hỏi.|z|≤n−1n√
Không hoàn toàn thuyết phục? Đây là kết quả của việc mô phỏng tình huống này 100.000 lần (với , trong đó phân phối là đồng nhất).n=4
Biểu đồ thứ nhất biểu thị các hệ số tương quan của trong khi biểu đồ thứ hai biểu thị các hệ số tương quan của ( x i , v i ) , i = 1 , Lít , 4(xi,yi),i=1,…,4 cho a vector v i được chọn ngẫu nhiênmà vẫn cố định cho tất cả các lần lặp. Cả hai đều thống nhất. Cốt truyện QQ ở bên phải xác nhận các bản phân phối này về cơ bản là giống hệt nhau.(xi,vi),i=1,…,4) vi
Đây là R
mã đã tạo ra cốt truyện.
n <- 4
n.sim <- 1e5
set.seed(17)
par(mfrow=c(1,3))
#
# Simulate spherical bivariate normal samples of size n each.
#
x <- matrix(rnorm(n.sim*n), n)
y <- matrix(rnorm(n.sim*n), n)
#
# Look at the distribution of the correlation of `x` and `y`.
#
sim <- sapply(1:n.sim, function(i) cor(x[,i], y[,i]))
hist(sim)
#
# Specify *any* fixed vector in place of `y`.
#
v <- c(n-1, rep(-1, n-1)) # The case in question
v <- rnorm(n) # Can use anything you want
#
# Look at the distribution of the correlation of `x` with `v`.
#
sim2 <- sapply(1:n.sim, function(i) cor(x[,i], v))
hist(sim2)
#
# Compare the two distributions.
#
qqplot(sim, sim2, main="QQ Plot")
Tài liệu tham khảo
RA Fisher, Phân phối tần số của các giá trị của hệ số tương quan trong các mẫu từ một dân số lớn vô hạn . Biometrika , 10 , 507. Xem Phần 3. (Trích dẫn trong Lý thuyết thống kê nâng cao của Kendall , Ed lần thứ 5, phần 16.24.)