Hiệp phương sai của hai biến đã được tính là -150. số liệu thống kê nói gì về mối quan hệ giữa hai biến?
Hiệp phương sai của hai biến đã được tính là -150. số liệu thống kê nói gì về mối quan hệ giữa hai biến?
Câu trả lời:
Để thêm vào câu trả lời của Łukasz Deryło : khi ông viết, một hiệp phương sai -150 ngụ ý một mối quan hệ tiêu cực. Cho dù đây là mối quan hệ mạnh hay yếu, phụ thuộc vào phương sai của các biến. Dưới đây tôi vẽ các ví dụ cho một mối quan hệ mạnh mẽ (mỗi biến riêng biệt có phương sai 200, vì vậy hiệp phương sai lớn, về mặt tuyệt đối, so với phương sai) và đối với mối quan hệ yếu (mỗi phương sai là 2000, nên hiệp phương sai nhỏ , trong điều khoản tuyệt đối, so với phương sai).
variance <- 200
:variance <- 2000
:library(MASS)
nn <- 100
epsilon <- 0.1
variance <- 2000 # weak relationship
opar <- par(mfrow=c(2,2))
for ( ii in 1:4 ) {
while ( TRUE ) {
dataset <- mvrnorm(n=100,mu=c(0,0),Sigma=rbind(c(2000,-150),c(-150,2000)))
if ( abs(cov(dataset)[1,2]-(-150)) < epsilon ) break
}
plot(dataset,pch=19,xlab="",ylab="",main=paste("Covariance:",cov(dataset)[1,2]))
}
par(opar)
Như whuber lưu ý, hiệp phương sai tự nó không thực sự cho chúng ta biết nhiều về một tập dữ liệu. Để minh họa, tôi sẽ lấy bộ tứ của Anscombe và sửa đổi nó một chút. Lưu ý rằng các biểu đồ phân tán rất khác nhau có thể có cùng hiệp phương sai (làm tròn) là -150:
anscombe.mod <- anscombe
anscombe.mod[,c("x1","x2","x3","x4")] <- sqrt(150/5.5)*anscombe[,c("x1","x2","x3","x4")]
anscombe.mod[,c("y1","y2","y3","y4")] <- -sqrt(150/5.5)*anscombe[,c("y1","y2","y3","y4")]
opar <- par(mfrow=c(2,2))
with(anscombe.mod,plot(x1,y1,pch=19,main=paste("Covariance:",round(cov(x1,y1),0))))
with(anscombe.mod,plot(x2,y2,pch=19,main=paste("Covariance:",round(cov(x2,y2),0))))
with(anscombe.mod,plot(x3,y3,pch=19,main=paste("Covariance:",round(cov(x3,y3),0))))
with(anscombe.mod,plot(x4,y4,pch=19,main=paste("Covariance:",round(cov(x4,y4),0))))
par(opar)
Cuối cùng, đây là một hiệp phương sai của -150 với "mối quan hệ tiêu cực" khó hiểu nhất giữa và có thể tưởng tượng được:
xx <- yy <- seq(0,100,by=10)
yy[9] <- -336.7
plot(xx,yy,pch=19,main=paste("Covariance:",cov(xx,yy)))
Nó chỉ cho bạn biết mối quan hệ đó là tiêu cực. Điều này có nghĩa là các giá trị thấp của một biến có xu hướng xảy ra cùng với các giá trị cao của biến khác.
Thật khó để biết hiệp phương sai này lớn hay nhỏ (nếu mối quan hệ của bạn mạnh hay yếu) vì nằm trong khoảng từ đến . Vì vậy, nó phụ thuộc vào quy mô của các biến của bạn.- s d ( X ) ⋅ s d ( Y ) s d ( X ) ⋅ s d ( Y )
Để đánh giá mối quan hệ này có mạnh mẽ hay không, bạn cần chuyển đổi hiệp phương sai thành tương quan (chia nó cho ). Điều này nằm trong phạm vi từ đến và nhiều hướng dẫn khác nhau để giải thích có thể được tìm thấy trong Web và sách giáo khoa.- 1 1
Bạn có thể chạy thử nghiệm cho tầm quan trọng của mối tương quan quá.