Phương sai được tính toán trong mã xem từng mảng như thể nó là một mẫu gồm 100 giá trị riêng biệt. Bởi vì cả mảng và phiên bản hoán vị của nó đều chứa cùng 100 giá trị, chúng có cùng phương sai.
Cách đúng để mô phỏng tình huống trong trích dẫn đòi hỏi sự lặp lại. Tạo một mẫu các giá trị. Tính toán ý nghĩa của nó. (Điều này đóng vai trò "ước tính lỗi kiểm tra.") Lặp lại nhiều lần. Thu thập tất cả các phương tiện này và xem chúng khác nhau bao nhiêu . Đây là "phương sai" được đề cập trong trích dẫn.
Chúng tôi có thể dự đoán những gì sẽ xảy ra:
Khi các yếu tố của mỗi mẫu trong quá trình này có mối tương quan dương, khi một giá trị cao, các giá trị khác cũng có xu hướng cao. Ý nghĩa của chúng sau đó sẽ cao. Khi một giá trị thấp, những giá trị khác cũng có xu hướng thấp. Giá trị trung bình của chúng sẽ thấp. Vì vậy, các phương tiện có xu hướng cao hoặc thấp.
Khi các yếu tố của mỗi mẫu không tương quan, số lượng mà một số yếu tố cao thường được cân bằng (hoặc "hủy bỏ") bởi các yếu tố thấp khác. Nhìn chung, giá trị trung bình có xu hướng rất gần với mức trung bình của dân số mà từ đó các mẫu được rút ra - và hiếm khi lớn hơn hoặc ít hơn nhiều so với mức đó.
R
làm cho nó dễ dàng để đưa điều này vào hành động. Bí quyết chính là tạo ra các mẫu tương quan. Một cách là sử dụng các biến Bình thường tiêu chuẩn: các kết hợp tuyến tính của chúng có thể được sử dụng để tạo ra bất kỳ số lượng tương quan nào bạn có thể muốn.
Ví dụ, đây là kết quả của thí nghiệm lặp lại này khi nó được tiến hành 5.000 lần bằng các mẫu có kích thước . Trong một trường hợp, các mẫu được lấy từ phân phối chuẩn. Mặt khác, chúng được lấy theo cách tương tự - cả hai đều có phương tiện bằng 0 và phương sai đơn vị - nhưng phân phối mà chúng được rút ra có hệ số tương quan là .n = 290 %
Hàng trên cùng hiển thị phân phối tần số của tất cả 5.000 phương tiện. Hàng dưới cùng hiển thị các biểu đồ phân tán được tạo bởi tất cả 5.000 cặp dữ liệu. Từ sự khác biệt về mức độ chênh lệch của biểu đồ, rõ ràng tập hợp các phương tiện từ các mẫu không tương quan ít bị phân tán hơn so với tập hợp các phương tiện từ các mẫu tương quan, minh họa cho đối số "hủy bỏ".
Sự khác biệt về lượng lan truyền trở nên rõ rệt hơn với tương quan cao hơn và với cỡ mẫu lớn hơn. Các R
mã cho phép bạn chỉ định những như rho
và n
, tương ứng, vì vậy bạn có thể thử nghiệm. Giống như mã trong câu hỏi, mục tiêu của nó là tạo ra các mảng x
(từ các mẫu không tương thích) và y
(từ các mẫu tương quan) để so sánh thêm.
n <- 2
rho <- 0.9
n.sim <- 5e3
#
# Create a data structure for making correlated variables.
#
Sigma <- outer(1:n, 1:n, function(i,j) rho^abs(i-j))
S <- svd(Sigma)
Q <- S$v %*% diag(sqrt(S$d))
#
# Generate two sets of sample means, one uncorrelated (x) and the other correlated (y).
#
Z <- matrix(rnorm(n*n.sim), nrow=n)
x <- colMeans(Z)
y <- colMeans(Q %*% Z)
#
# Display the histograms of both.
#
par(mfrow=c(2,2))
h.y <- hist(y, breaks=50, plot=FALSE)
h.x <- hist(x, breaks=h.y$breaks, plot=FALSE)
ylim <- c(0, max(h.x$density))
hist(x, main="Uncorrelated", freq=FALSE, breaks=h.y$breaks, ylim=ylim)
hist(y, main="Correlated", freq=FALSE, breaks=h.y$breaks, ylim=ylim)
#
# Show scatterplots of the first two elements of the samples.
#
plot(t(Z)[, 1:2], pch=19, col="#00000010", xlab="x.1", ylab="x.2", asp=1)
plot(t(Q%*%Z)[, 1:2], pch=19, col="#00000010", xlab="x.1", ylab="x.2", asp=1)
Bây giờ khi bạn tính toán phương sai của mảng phương tiện x
và y
, giá trị của chúng sẽ khác nhau:
> var(x)
[1] 0.5035174
> var(y)
[1] 0.9590535
Lý thuyết cho chúng ta biết các phương sai này sẽ gần với và . Chúng khác với các giá trị lý thuyết chỉ vì chỉ 5.000 lần lặp lại đã được thực hiện. Với sự lặp lại nhiều hơn, phương sai của và sẽ có xu hướng gần hơn với các giá trị lý thuyết của chúng.( 1 + 1 ) /22= 0,5( 1 + 2 × 0,9 + 1 ) /22= 0,95x
y
sort(sample(100))
sẽ thấy nó giống hệt1:100
và do đó phương sai của chúng giống hệt nhau. Không thể giúp bạn với bit đầu tiên của bài đăng của bạn - Tôi có thể nghĩ rằng các đại lượng tương quan có phương sai thấp hơn (ví dụ: tương quan trong cụm) nhưng sau đó tôi không biết LOOCV là gì.