Tôi đã học được trong các số liệu thống kê cơ bản rằng, với một mô hình tuyến tính tổng quát, để các suy luận có giá trị, các quan sát phải độc lập. Khi phân cụm xảy ra, tính độc lập có thể không còn dẫn đến suy luận không hợp lệ trừ khi điều này được tính đến. Một cách để giải thích cho việc phân cụm như vậy là sử dụng các mô hình hỗn hợp. Tôi muốn tìm một tập dữ liệu mẫu, mô phỏng hay không, điều này thể hiện rõ điều này. Tôi đã thử sử dụng một trong các bộ dữ liệu mẫu trên trang web UCLA để phân tích dữ liệu phân cụm
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
Trừ khi tôi thiếu một cái gì đó, những kết quả này tương tự nhau đến mức tôi không nghĩ đầu ra từ đó lm()
là không hợp lệ. Tôi đã xem xét một số ví dụ khác (ví dụ 5.2 từ Trung tâm Mô hình đa cấp của Đại học Bristol ) và thấy các lỗi tiêu chuẩn cũng không quá khác biệt (tôi không quan tâm đến các hiệu ứng ngẫu nhiên từ mô hình hỗn hợp, nhưng đáng chú ý là ICC từ đầu ra mô hình hỗn hợp là 0,42).
Vì vậy, câu hỏi của tôi là 1) trong những điều kiện nào các lỗi tiêu chuẩn sẽ khác nhau rõ rệt khi phân cụm xảy ra và 2) ai đó có thể cung cấp một ví dụ về bộ dữ liệu đó (mô phỏng hay không).