phương sai của giá trị trung bình của dữ liệu tương quan và không tương quan


7

Tôi đã đọc đoạn này trong James et al, Giới thiệu về Học thống kê , tr183-184 [1]:

Do giá trị trung bình của nhiều đại lượng tương quan cao có phương sai cao hơn so với giá trị trung bình của nhiều đại lượng không tương quan cao, ước tính sai số kiểm tra do LOOCV có xu hướng có phương sai cao hơn so với ước tính lỗi kiểm tra do CV gấp.

Bạn có thể cho tôi một ví dụ bằng số, ví dụ như trong R để kiểm tra tính hợp lệ của khiếu nại này không?

Tôi đã thử kiểm tra nó bằng mã sau:

x = 1:100 #highly correlated data
y = sample(100) #same data without correlation
var(x) == var(y) # TRUE

Có gì sai với mã này?

  • LOOCV là viết tắt của "bỏ qua một xác nhận chéo"

[1]: James, G., Witten, D., Hastie, T., Tibshirani, R. (2013),
Giới thiệu về học thống kê với các ứng dụng trong R ,
Springer Texts in Statistics, Springer Science + Business Media, New York


Nếu bạn sort(sample(100))sẽ thấy nó giống hệt 1:100và do đó phương sai của chúng giống hệt nhau. Không thể giúp bạn với bit đầu tiên của bài đăng của bạn - Tôi có thể nghĩ rằng các đại lượng tương quan có phương sai thấp hơn (ví dụ: tương quan trong cụm) nhưng sau đó tôi không biết LOOCV là gì.
Matthew

Tôi biết họ giống nhau và chỉ cần thay đổi thứ tự. Tuy nhiên 1: 100 là các số tương quan nhưng mẫu (100) thì không.
Farid Cheraghi

Vectơ 1:100không tương quan nhiều hơn vectơ sample(100). Chúng có thể được tạo ra khác nhau, nhưng ngoài thứ tự, là giống hệt nhau. Chắc chắn việc tính toán phương sai không tính đến việc đặt hàng. Có những ví dụ trực tuyến về cách mô phỏng dữ liệu tương quan có lẽ là những gì bạn cần.
Matthew

Hãy thử acf(x)acf(y)xem chính mình!
Farid Cheraghi

Ah, tôi đã không nghĩ về autocorrelation. Tuy nhiên, lý do phương sai bằng nhau là vì thứ tự không liên quan đến varhàm, giống như khi bạn tính toán phương sai theo. Ngoài ra, và có thể hữu ích hơn, xem liên kết
Matthew

Câu trả lời:


12

Phương sai được tính toán trong mã xem từng mảng như thể nó là một mẫu gồm 100 giá trị riêng biệt. Bởi vì cả mảng và phiên bản hoán vị của nó đều chứa cùng 100 giá trị, chúng có cùng phương sai.

Cách đúng để mô phỏng tình huống trong trích dẫn đòi hỏi sự lặp lại. Tạo một mẫu các giá trị. Tính toán ý nghĩa của nó. (Điều này đóng vai trò "ước tính lỗi kiểm tra.") Lặp lại nhiều lần. Thu thập tất cả các phương tiện này và xem chúng khác nhau bao nhiêu . Đây là "phương sai" được đề cập trong trích dẫn.

Chúng tôi có thể dự đoán những gì sẽ xảy ra:

  • Khi các yếu tố của mỗi mẫu trong quá trình này có mối tương quan dương, khi một giá trị cao, các giá trị khác cũng có xu hướng cao. Ý nghĩa của chúng sau đó sẽ cao. Khi một giá trị thấp, những giá trị khác cũng có xu hướng thấp. Giá trị trung bình của chúng sẽ thấp. Vì vậy, các phương tiện có xu hướng cao hoặc thấp.

  • Khi các yếu tố của mỗi mẫu không tương quan, số lượng mà một số yếu tố cao thường được cân bằng (hoặc "hủy bỏ") bởi các yếu tố thấp khác. Nhìn chung, giá trị trung bình có xu hướng rất gần với mức trung bình của dân số mà từ đó các mẫu được rút ra - và hiếm khi lớn hơn hoặc ít hơn nhiều so với mức đó.

Rlàm cho nó dễ dàng để đưa điều này vào hành động. Bí quyết chính là tạo ra các mẫu tương quan. Một cách là sử dụng các biến Bình thường tiêu chuẩn: các kết hợp tuyến tính của chúng có thể được sử dụng để tạo ra bất kỳ số lượng tương quan nào bạn có thể muốn.

Ví dụ, đây là kết quả của thí nghiệm lặp lại này khi nó được tiến hành 5.000 lần bằng các mẫu có kích thước . Trong một trường hợp, các mẫu được lấy từ phân phối chuẩn. Mặt khác, chúng được lấy theo cách tương tự - cả hai đều có phương tiện bằng 0 và phương sai đơn vị - nhưng phân phối mà chúng được rút ra có hệ số tương quan là .n= =290%

Nhân vật

Hàng trên cùng hiển thị phân phối tần số của tất cả 5.000 phương tiện. Hàng dưới cùng hiển thị các biểu đồ phân tán được tạo bởi tất cả 5.000 cặp dữ liệu. Từ sự khác biệt về mức độ chênh lệch của biểu đồ, rõ ràng tập hợp các phương tiện từ các mẫu không tương quan ít bị phân tán hơn so với tập hợp các phương tiện từ các mẫu tương quan, minh họa cho đối số "hủy bỏ".

Sự khác biệt về lượng lan truyền trở nên rõ rệt hơn với tương quan cao hơn và với cỡ mẫu lớn hơn. Các Rmã cho phép bạn chỉ định những như rhon, tương ứng, vì vậy bạn có thể thử nghiệm. Giống như mã trong câu hỏi, mục tiêu của nó là tạo ra các mảng x(từ các mẫu không tương thích) và y(từ các mẫu tương quan) để so sánh thêm.

n <- 2
rho <- 0.9
n.sim <- 5e3
#
# Create a data structure for making correlated variables.
#
Sigma <- outer(1:n, 1:n, function(i,j) rho^abs(i-j))
S <- svd(Sigma)
Q <- S$v %*% diag(sqrt(S$d))
#
# Generate two sets of sample means, one uncorrelated (x) and the other correlated (y).
#
Z <- matrix(rnorm(n*n.sim), nrow=n)
x <- colMeans(Z)
y <- colMeans(Q %*% Z)
#
# Display the histograms of both.
#
par(mfrow=c(2,2))
h.y <- hist(y, breaks=50, plot=FALSE)
h.x <- hist(x, breaks=h.y$breaks, plot=FALSE)
ylim <- c(0, max(h.x$density))
hist(x, main="Uncorrelated", freq=FALSE, breaks=h.y$breaks, ylim=ylim)
hist(y, main="Correlated", freq=FALSE, breaks=h.y$breaks, ylim=ylim)
#
# Show scatterplots of the first two elements of the samples.
#
plot(t(Z)[, 1:2], pch=19, col="#00000010", xlab="x.1", ylab="x.2", asp=1)
plot(t(Q%*%Z)[, 1:2], pch=19, col="#00000010", xlab="x.1", ylab="x.2", asp=1)

Bây giờ khi bạn tính toán phương sai của mảng phương tiện xy, giá trị của chúng sẽ khác nhau:

> var(x)
[1] 0.5035174
> var(y)
[1] 0.9590535

Lý thuyết cho chúng ta biết các phương sai này sẽ gần với và . Chúng khác với các giá trị lý thuyết chỉ vì chỉ 5.000 lần lặp lại đã được thực hiện. Với sự lặp lại nhiều hơn, phương sai của và sẽ có xu hướng gần hơn với các giá trị lý thuyết của chúng.(1+1)/22= =0,5(1+2×0,9+1)/22= =0,95xy


3
Tôi không thể tìm thấy trích dẫn trong ESLII (in lần thứ 10) bằng cách sử dụng tìm kiếm văn bản trong pdf, nhưng đó là từ từng chữ trong ISLR (vì vậy đó là tài liệu tham khảo tôi đã chèn vào câu hỏi ngay bây giờ)
Glen_b -Reinstate Monica

@whuber, cảm ơn bạn rất nhiều. Tôi đã sử dụng để tạo ra số lượng tương quan hai chiều bằng cách sử dụng mvtnormgói. Sigma <- outer(1:n, 1:n, function(i,j) rho^abs(i-j)) xy = mvtnorm::rmvnorm(5000,mean=c(0,0),sigma = Sigma)Làm thế nào tôi có thể hiểu cách Q %*% Zdẫn đến số lượng tương quan? Sách, tài liệu tham khảo?
Farid Cheraghi

2
Cách đơn giản nhất là tính toán:
Cov(QZ)= =QCov(Z)Q'= =QQ'= =VDDV'= =VDV'= =S.
Tôi đã chọn phương pháp này, thay vì mvtnorm, vì nó cho phép tôi sử dụng chính xác các giá trị tương tự củaZđối với cả hai bộ dữ liệu mô phỏng, việc chứng minh một cách ép buộc kết quả không phải là một tạo tác của việc tạo số ngẫu nhiên. (Cảm ơn bạn, @glen_b, vì đã sửa tham chiếu.)
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.