TL; DR : Cỡ mẫu tối thiểu trên mỗi cụm trong mô hình hỗn hợp là 1, với điều kiện số lượng cụm là đủ và tỷ lệ của cụm đơn không "quá cao"
Phiên bản dài hơn:
Nhìn chung, số lượng cụm quan trọng hơn số lượng quan sát trên mỗi cụm. Với 700, rõ ràng bạn không có vấn đề ở đó.
Kích thước cụm nhỏ là khá phổ biến, đặc biệt là trong các khảo sát khoa học xã hội tuân theo các thiết kế lấy mẫu phân tầng, và có một cơ quan nghiên cứu đã điều tra kích thước mẫu ở cấp độ cụm.
Trong khi tăng kích thước cụm tăng sức mạnh thống kê để ước tính các hiệu ứng ngẫu nhiên (Austin & Leckie, 2018), kích thước cụm nhỏ không dẫn đến sai lệch nghiêm trọng (Bell et al, 2008; Clarke, 2008; Clarke & Wheaton, 2007; Maas & Hox , 2005). Do đó, cỡ mẫu tối thiểu trên mỗi cụm là 1.
Cụ thể, Bell, et al (2008) đã thực hiện một nghiên cứu mô phỏng Monte Carlo với tỷ lệ các cụm đơn (cụm chỉ chứa một quan sát duy nhất) dao động từ 0% đến 70% và thấy rằng, với điều kiện, số lượng cụm là lớn (~ 500) kích thước cụm nhỏ hầu như không ảnh hưởng đến sai lệch và kiểm soát lỗi Loại 1.
Họ cũng báo cáo rất ít vấn đề với sự hội tụ mô hình theo bất kỳ kịch bản mô hình hóa nào của họ.
Đối với kịch bản cụ thể trong OP, tôi sẽ đề nghị chạy mô hình với 700 cụm trong trường hợp đầu tiên. Trừ khi có một vấn đề rõ ràng với điều này, tôi sẽ không thích hợp nhất các cụm. Tôi đã chạy một mô phỏng đơn giản trong R:
Ở đây chúng tôi tạo ra một tập dữ liệu được nhóm với phương sai dư là 1, một hiệu ứng cố định duy nhất cũng là 1, 700 cụm, trong đó 690 là singletons và 10 chỉ có 2 quan sát. Chúng tôi chạy mô phỏng 1000 lần và quan sát biểu đồ của các hiệu ứng ngẫu nhiên cố định và dư ước tính.
> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) {
dtB$x <- rnorm(nrow(dtB), 0, 1)
dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1
fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
fixef.v[i] <- fixef(fm0B)[[2]]
ranef.v[i] <- attr(VarCorr(fm0B), "sc")
}
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)
Như bạn có thể thấy, các hiệu ứng cố định được ước tính rất tốt, trong khi các hiệu ứng ngẫu nhiên còn lại có vẻ hơi thiên về hướng xuống, nhưng không quá nghiêm trọng:
> summary(fixef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.6479 0.9439 0.9992 1.0005 1.0578 1.2544
> summary(ranef.v)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2796 0.7745 0.9004 0.8993 1.0212 1.4837
OP đặc biệt đề cập đến việc ước tính các hiệu ứng ngẫu nhiên ở cấp độ cụm. Trong mô phỏng ở trên, các hiệu ứng ngẫu nhiên được tạo ra đơn giản là giá trị của mỗi Subject
ID (được giảm xuống theo hệ số 100). Rõ ràng là những thứ này không được phân phối bình thường, đó là giả định của các mô hình hiệu ứng hỗn hợp tuyến tính, tuy nhiên, chúng ta có thể trích xuất (các chế độ có điều kiện) của các hiệu ứng cấp cụm và vẽ chúng theo Subject
ID thực tế :
> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)
Biểu đồ rời khỏi tính quy tắc phần nào, nhưng điều này là do cách chúng tôi mô phỏng dữ liệu. Vẫn còn một mối quan hệ hợp lý giữa các hiệu ứng ngẫu nhiên ước tính và thực tế.
Người giới thiệu:
Peter C. Austin & George Leckie (2018) Ảnh hưởng của số lượng cụm và kích thước cụm đến công suất thống kê và tỷ lệ lỗi Loại I khi kiểm tra các thành phần phương sai ngẫu nhiên trong các mô hình hồi quy tuyến tính và logistic đa cấp, Tạp chí tính toán và mô phỏng thống kê, 88: 16, 3151-3163, DOI: 10.1080 / 00949655.2018.1504945
Bell, BA, Ferron, JM, & Kromrey, JD (2008). Kích thước cụm trong các mô hình đa cấp: tác động của các cấu trúc dữ liệu thưa thớt lên các ước tính điểm và khoảng trong các mô hình hai cấp . Kỷ yếu JSM, Phần về Phương pháp nghiên cứu khảo sát, 1122-1129.
Clarke, P. (2008). Khi phân cụm cấp độ nhóm có thể được bỏ qua? Các mô hình đa cấp so với các mô hình một cấp với dữ liệu thưa thớt . Tạp chí Dịch tễ học và Sức khỏe Cộng đồng, 62 (8), 752-758.
Clarke, P., & Wheaton, B. (2007). Giải quyết sự thưa thớt dữ liệu trong nghiên cứu dân số theo ngữ cảnh bằng cách sử dụng phân tích cụm để tạo ra các vùng lân cận tổng hợp . Phương pháp & nghiên cứu xã hội học, 35 (3), 311-351.
Maas, CJ, & Hox, JJ (2005). Đủ cỡ mẫu cho mô hình đa cấp . Phương pháp luận, 1 (3), 86-92.