Cỡ mẫu tối thiểu trên mỗi cụm trong mô hình hiệu ứng ngẫu nhiên


10

Có một lý do cho số lượng quan sát trên mỗi cụm trong một mô hình hiệu ứng ngẫu nhiên không? Tôi có cỡ mẫu 1.500 với 700 cụm được mô phỏng theo hiệu ứng ngẫu nhiên có thể trao đổi. Tôi có tùy chọn hợp nhất các cụm để xây dựng các cụm ít hơn, nhưng lớn hơn. Tôi tự hỏi làm thế nào tôi có thể chọn kích thước mẫu tối thiểu cho mỗi cụm để có kết quả có ý nghĩa trong việc dự đoán hiệu ứng ngẫu nhiên cho mỗi cụm? Có một bài báo tốt giải thích điều này?

Câu trả lời:


13

TL; DR : Cỡ mẫu tối thiểu trên mỗi cụm trong mô hình hỗn hợp là 1, với điều kiện số lượng cụm là đủ và tỷ lệ của cụm đơn không "quá cao"

Phiên bản dài hơn:

Nhìn chung, số lượng cụm quan trọng hơn số lượng quan sát trên mỗi cụm. Với 700, rõ ràng bạn không có vấn đề ở đó.

Kích thước cụm nhỏ là khá phổ biến, đặc biệt là trong các khảo sát khoa học xã hội tuân theo các thiết kế lấy mẫu phân tầng, và có một cơ quan nghiên cứu đã điều tra kích thước mẫu ở cấp độ cụm.

Trong khi tăng kích thước cụm tăng sức mạnh thống kê để ước tính các hiệu ứng ngẫu nhiên (Austin & Leckie, 2018), kích thước cụm nhỏ không dẫn đến sai lệch nghiêm trọng (Bell et al, 2008; Clarke, 2008; Clarke & Wheaton, 2007; Maas & Hox , 2005). Do đó, cỡ mẫu tối thiểu trên mỗi cụm là 1.

Cụ thể, Bell, et al (2008) đã thực hiện một nghiên cứu mô phỏng Monte Carlo với tỷ lệ các cụm đơn (cụm chỉ chứa một quan sát duy nhất) dao động từ 0% đến 70% và thấy rằng, với điều kiện, số lượng cụm là lớn (~ 500) kích thước cụm nhỏ hầu như không ảnh hưởng đến sai lệch và kiểm soát lỗi Loại 1.

Họ cũng báo cáo rất ít vấn đề với sự hội tụ mô hình theo bất kỳ kịch bản mô hình hóa nào của họ.

Đối với kịch bản cụ thể trong OP, tôi sẽ đề nghị chạy mô hình với 700 cụm trong trường hợp đầu tiên. Trừ khi có một vấn đề rõ ràng với điều này, tôi sẽ không thích hợp nhất các cụm. Tôi đã chạy một mô phỏng đơn giản trong R:

Ở đây chúng tôi tạo ra một tập dữ liệu được nhóm với phương sai dư là 1, một hiệu ứng cố định duy nhất cũng là 1, 700 cụm, trong đó 690 là singletons và 10 chỉ có 2 quan sát. Chúng tôi chạy mô phỏng 1000 lần và quan sát biểu đồ của các hiệu ứng ngẫu nhiên cố định và dư ước tính.

> set.seed(15)
> dtB <- expand.grid(Subject = 1:700, measure = c(1))
> dtB <- rbind(dtB, dtB[691:700, ])
> fixef.v <- numeric(1000)
> ranef.v <- numeric(1000)
> for (i in 1:1000) { 
   dtB$x <- rnorm(nrow(dtB), 0, 1)
   dtB$y <- dtB$Subject/100 + rnorm(nrow(dtB), 0, 1) + dtB$x * 1

   fm0B <- lmer(y ~ x + (1|Subject), data = dtB)
   fixef.v[i] <- fixef(fm0B)[[2]]
   ranef.v[i] <- attr(VarCorr(fm0B), "sc")
 }
> hist(fixef.v, breaks = 15)
> hist(ranef.v, breaks = 15)

nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây

Như bạn có thể thấy, các hiệu ứng cố định được ước tính rất tốt, trong khi các hiệu ứng ngẫu nhiên còn lại có vẻ hơi thiên về hướng xuống, nhưng không quá nghiêm trọng:

> summary(fixef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.6479  0.9439  0.9992  1.0005  1.0578  1.2544 
> summary(ranef.v)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.2796  0.7745  0.9004  0.8993  1.0212  1.4837 

OP đặc biệt đề cập đến việc ước tính các hiệu ứng ngẫu nhiên ở cấp độ cụm. Trong mô phỏng ở trên, các hiệu ứng ngẫu nhiên được tạo ra đơn giản là giá trị của mỗi SubjectID (được giảm xuống theo hệ số 100). Rõ ràng là những thứ này không được phân phối bình thường, đó là giả định của các mô hình hiệu ứng hỗn hợp tuyến tính, tuy nhiên, chúng ta có thể trích xuất (các chế độ có điều kiện) của các hiệu ứng cấp cụm và vẽ chúng theo SubjectID thực tế :

> re <- ranef(fm0B)[[1]][, 1]
> dtB$re <- append(re, re[691:700])
> hist(dtB$re)
> plot(dtB$re, dtB$Subject)

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

Biểu đồ rời khỏi tính quy tắc phần nào, nhưng điều này là do cách chúng tôi mô phỏng dữ liệu. Vẫn còn một mối quan hệ hợp lý giữa các hiệu ứng ngẫu nhiên ước tính và thực tế.

Người giới thiệu:

Peter C. Austin & George Leckie (2018) Ảnh hưởng của số lượng cụm và kích thước cụm đến công suất thống kê và tỷ lệ lỗi Loại I khi kiểm tra các thành phần phương sai ngẫu nhiên trong các mô hình hồi quy tuyến tính và logistic đa cấp, Tạp chí tính toán và mô phỏng thống kê, 88: 16, 3151-3163, DOI: 10.1080 / 00949655.2018.1504945

Bell, BA, Ferron, JM, & Kromrey, JD (2008). Kích thước cụm trong các mô hình đa cấp: tác động của các cấu trúc dữ liệu thưa thớt lên các ước tính điểm và khoảng trong các mô hình hai cấp . Kỷ yếu JSM, Phần về Phương pháp nghiên cứu khảo sát, 1122-1129.

Clarke, P. (2008). Khi phân cụm cấp độ nhóm có thể được bỏ qua? Các mô hình đa cấp so với các mô hình một cấp với dữ liệu thưa thớt . Tạp chí Dịch tễ học và Sức khỏe Cộng đồng, 62 (8), 752-758.

Clarke, P., & Wheaton, B. (2007). Giải quyết sự thưa thớt dữ liệu trong nghiên cứu dân số theo ngữ cảnh bằng cách sử dụng phân tích cụm để tạo ra các vùng lân cận tổng hợp . Phương pháp & nghiên cứu xã hội học, 35 (3), 311-351.

Maas, CJ, & Hox, JJ (2005). Đủ cỡ mẫu cho mô hình đa cấp . Phương pháp luận, 1 (3), 86-92.


1
+1 câu trả lời tuyệt vời. Liên quan: Tôi đã gặp rắc rối với các mô hình đa cấp logistic trong đó khoảng một nửa các cụm chỉ có 1 quan sát. Xem tại đây: stats.stackexchange.com/a/358460/130869
Mark White

4

Trong các mô hình hỗn hợp, các hiệu ứng ngẫu nhiên thường được ước tính bằng phương pháp Bayes theo kinh nghiệm. Một tính năng của phương pháp này là co rút. Cụ thể, các hiệu ứng ngẫu nhiên ước tính được thu nhỏ theo giá trị trung bình chung của mô hình được mô tả bởi phần hiệu ứng cố định. Mức độ co ngót phụ thuộc vào hai thành phần:

  1. Độ lớn của phương sai của các hiệu ứng ngẫu nhiên so với độ lớn của phương sai của các điều khoản lỗi. Phương sai của các hiệu ứng ngẫu nhiên càng lớn so với phương sai của các điều khoản lỗi, mức độ co rút càng nhỏ.

  2. Số lượng đo lặp lại trong các cụm. Ước tính hiệu ứng ngẫu nhiên của các cụm có số đo lặp lại nhiều hơn được thu nhỏ ít hơn so với trung bình tổng thể so với các cụm có số đo ít hơn.

Trong trường hợp của bạn, điểm thứ hai có liên quan hơn. Tuy nhiên, lưu ý rằng giải pháp đề xuất hợp nhất cụm của bạn cũng có thể ảnh hưởng đến điểm đầu tiên.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.