Tại sao sự phụ thuộc là một vấn đề?


8

Tôi quan tâm đến việc tại sao các quan sát phụ thuộc là một vấn đề trong thống kê. Giả sử bạn muốn biết liệu có sự khác biệt về điểm thi trung bình giữa hai trường không. Bạn thu thập 50 quan sát trong mỗi trường. 50 quan sát này được bắt nguồn từ 5 phòng học khác nhau ở mỗi trường và có sự phụ thuộc trong các lớp học. Trong trường hợp này, kết quả của bài kiểm tra t sẽ bị ảnh hưởng như thế nào và làm thế nào chúng có thể dẫn đến kết luận không chính xác?

Câu trả lời:


5

Giá trị p cho phép thử t được tính theo giả định rằng tất cả các quan sát là độc lập. Việc tính toán xác suất (chẳng hạn như giá trị p) khó khăn hơn nhiều khi bạn xử lý các biến phụ thuộc và không phải lúc nào cũng dễ dàng nhận thấy về mặt toán học khi có sự cố xảy ra với thử nghiệm khi có sự phụ thuộc. Tuy nhiên chúng ta có thể dễ dàng minh họa vấn đề bằng một mô phỏng.

Ví dụ, xem xét trường hợp có 5 phòng học ở mỗi hai trường, với 10 học sinh trong mỗi lớp. Theo giả định về tính quy tắc, giá trị p của bài kiểm tra phải được phân phối đồng đều trên khoảng nếu không có sự khác biệt về điểm kiểm tra trung bình giữa tất cả các lớp học. Đó là, nếu chúng tôi thực hiện rất nhiều nghiên cứu như thế này và vẽ sơ đồ của tất cả các giá trị p, thì nó sẽ giống với phân bố đồng đều hình hộp .(0,1)

Tuy nhiên, nếu có mối tương quan nào đó giữa lớp học giữa các kết quả của học sinh, các giá trị p không còn hoạt động như bình thường. Một mối tương quan tích cực (như người ta có thể mong đợi ở đây) thường sẽ dẫn đến các giá trị p quá nhỏ, do đó, giả thuyết null sẽ bị từ chối quá thường xuyên khi thực tế là đúng. Một mô phỏng R minh họa điều này có thể được tìm thấy dưới đây. 1000 nghiên cứu của hai trường được mô phỏng cho các mối tương quan trong lớp học khác nhau. Các giá trị p của phép thử t giảm dần được hiển thị trong biểu đồ trong hình. Chúng được phân phối đồng đều khi không có mối tương quan, nhưng không phải là khác. Trong mô phỏng, người ta cho rằng không có sự khác biệt trung bình giữa các lớp học và tất cả các lớp học đều có cùng mối tương quan trong lớp học.

Hậu quả của hiện tượng này là tỷ lệ lỗi loại I của bài kiểm tra t sẽ không còn nếu có mối tương quan trong lớp học. Ví dụ, một bài kiểm tra t ở mức 5% trên thực tế là xấp xỉ ở mức 25% nếu tương quan trong lớp học là 0,1! Nói cách khác, nguy cơ từ chối giả thuyết null giả định tăng đáng kể khi các quan sát phụ thuộc .


Mô phỏng Lưu ý rằng các trục khác nhau một chút giữa các biểu đồ.

Mã R:

library(MASS) 
B1<-1000

par(mfrow=c(3,2))

for(correlation in c(0,0.1,0.25,0.5,0.75,0.95))
{
# Create correlation/covariance matrix and mean vector
Sigma<-matrix(correlation,10,10)
diag(Sigma)<-1
mu<-rep(5,10)

# Simulate B1 studies of two schools A and B
p.value<-rep(NA,B1)
for(i in 1:B1)
{
    # Generate observations of 50 students from school A
    A<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))

    # Generate observations of 50 students from school B
    B<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))

    p.value[i]<-t.test(A,B)$p.value
}

# Plot histogram
hist(p.value,main=paste("Within-classroom correlation:",correlation),xlab="p-value",cex.main=2,cex.lab=2,cex.axis=2)
}

MånsT câu trả lời của bạn là loại câu trả lời tôi hy vọng nhận được (+1). Tuy nhiên, bạn có thể giải thích làm thế nào có thể tính toán một mối tương quan trong lớp học? Mỗi phòng trong số 5 phòng học trong mỗi 2 trường có 10 quan sát, mỗi trường được đo trên một biến duy nhất. Sự hiểu biết của tôi về mối tương quan là họ sẽ cần các quan sát được đo trên hai biến.
luciano

ρXiiXjji=1,,10j=1,,10. Về cơ bản điều này có nghĩa là nếu một học sinh trong lớp học hoạt động tốt (so với ý nghĩa của trường), những người khác có nhiều khả năng cũng hoạt động tốt.
MånsT

3

Vấn đề sẽ là so sánh hai trường theo cách này pha trộn hiệu ứng cấp đại học với hiệu ứng cấp lớp. Một mô hình hỗn hợp sẽ cho phép bạn giải quyết những điều này. Nếu bạn không quan tâm đến việc giải quyết chúng, bạn vẫn nên tính đến việc lấy mẫu theo cụm (mặc dù nhiều người không làm điều này).

Nhận xét của @Nico ở trên có một vấn đề ở đây: Giả sử một giáo viên trong một trường học thực sự tốt, và anh ấy / cô ấy có phải là một trong những giáo viên được chọn không?

Nhưng một vấn đề khác là các sinh viên ở mỗi lớp sẽ giống nhau hơn so với các sinh viên khác trong cùng một trường đại học theo mọi cách: Các môn học khác nhau vẽ các loại sinh viên khác nhau theo độ tuổi, giới tính, kinh nghiệm, sức mạnh học tập và điểm yếu, vv


1

Không có gì sai với bài kiểm tra mà bạn mô tả vì bạn đã lấy một mẫu từ cả hai trường một cách công bằng. Các quan sát phụ thuộc xuất hiện khi có một biến khác mà các mẫu phụ thuộc vào. Tức là, ở một trong những trường chỉ có một lớp xuất hiện và bạn đã quyết định nhận kết quả từ 50 người trong lớp này với suy nghĩ sẽ ổn. Nhưng trong kết quả của trường phụ thuộc vào một lớp, vì vậy bạn không thể làm như thế này và nó sẽ cho kết quả sai mà bạn không thể phát hiện bằng bất kỳ bài kiểm tra thống kê nào ... đó chỉ là một thiết kế thử nghiệm sai.

Nhưng tôi nghĩ mọi người thường nói về những quan sát phụ thuộc từ quan điểm khác nhau thường. Đó là khi bạn nghĩ rằng bạn có thể rút ra các phân phối và lỗi từ các mẫu của mình dựa trên các giả định về tính độc lập (hầu hết các công thức tiêu chuẩn cho rằng), trong khi kết quả của bạn phụ thuộc vào nhau thì các quy tắc đó hoàn toàn không chính xác ...


3
Điều gì sẽ xảy ra nếu một lớp học duy nhất ở một trong hai trường có một giáo viên cực kỳ giỏi để những đứa trẻ trong lớp đó sẽ vượt quá mức trung bình của các lớp khác? Điểm trung bình chung của trường đó có thể cao hơn nhưng chỉ vì lớp đó chứ không phải vì dân số chung của trường đó tốt hơn.
nico

Và gì nữa? Trường đó trung bình tốt hơn, và vâng, cũng vì giáo viên đó. Nếu bạn đang cố gắng so sánh trẻ em từ các khu vực khác nhau, vâng, điều này sẽ đi vào chơi. Nếu không thì không có gì sai với nó.
sashkello

Chà, người ta có thể đi đến kết luận sai rằng tất cả các lớp trong trường đó đều tốt hơn (bởi vì, giả sử, về chính sách của hiệu trưởng), khi bạn thực sự nhìn vào hiệu ứng của một ngoại lệ. Sửa lỗi cho "hiệu ứng giáo viên", ví dụ mô hình hóa nó như là một yếu tố phiền toái có thể sửa cho vấn đề này.
nico

1
Tôi không nghĩ nó có liên quan. Trong bối cảnh "trường nào tốt hơn", trường có kết quả trung bình cao hơn sẽ tốt hơn, bất kể lý do cho điều đó là gì. Kết quả của một thí nghiệm như vậy không sai, bạn chỉ cần diễn giải nó đúng. Ngoài ra 1 trong 5 lớp không phải là một ngoại lệ. Tôi cũng có thể lập luận rằng trên thực tế không có thứ gọi là "ngoại lệ" nào cả, bởi vì dù ở mức trung bình bao xa, đó là vấn đề định nghĩa trường nào bạn coi là tốt hơn - trường có điểm trung bình tốt hơn hay trường có trung bình tốt hơn hoặc một trong những sinh viên tốt nhất top 5 hoặc bất cứ điều gì.
sashkello
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.