Số lượng nhóm được đề nghị tối thiểu cho một yếu tố hiệu ứng ngẫu nhiên là gì?


26

Tôi đang sử dụng một mô hình hỗn hợp trong R( lme4) để phân tích một số dữ liệu đo lặp lại. Tôi có một biến phản ứng (hàm lượng chất xơ của phân) và 3 hiệu ứng cố định (khối lượng cơ thể, v.v.). Nghiên cứu của tôi chỉ có 6 người tham gia, với 16 biện pháp lặp lại cho mỗi người (mặc dù hai chỉ có 12 lần lặp lại). Các đối tượng là thằn lằn được cho kết hợp thực phẩm khác nhau trong các 'phương pháp điều trị' khác nhau.

Câu hỏi của tôi là: tôi có thể sử dụng ID chủ đề như một hiệu ứng ngẫu nhiên không?

Tôi biết đây là cách hành động thông thường trong các mô hình hiệu ứng hỗn hợp theo chiều dọc, để tính đến tính chất được lấy mẫu ngẫu nhiên của các đối tượng và thực tế là các quan sát trong các đối tượng sẽ có mối tương quan chặt chẽ hơn so với các đối tượng giữa các đối tượng. Nhưng, coi ID chủ đề là một hiệu ứng ngẫu nhiên liên quan đến việc ước tính giá trị trung bình và phương sai cho biến này.

  • Vì tôi chỉ có 6 môn học (6 cấp độ của yếu tố này), điều này có đủ để có được một đặc tính chính xác của giá trị trung bình và phương sai không?

  • Có phải thực tế là tôi có khá nhiều phép đo lặp đi lặp lại cho từng đối tượng giúp ích trong vấn đề này (tôi không thấy nó quan trọng như thế nào)?

  • Cuối cùng, nếu tôi không thể sử dụng ID chủ đề như một hiệu ứng ngẫu nhiên, liệu việc bao gồm nó như một hiệu ứng cố định có cho phép tôi kiểm soát thực tế rằng tôi có các biện pháp lặp đi lặp lại không?

Chỉnh sửa: Tôi chỉ muốn làm rõ rằng khi tôi nói "tôi có thể" sử dụng ID chủ đề như một hiệu ứng ngẫu nhiên, ý tôi là "đó có phải là một ý tưởng hay không". Tôi biết tôi có thể phù hợp với mô hình với một yếu tố chỉ với 2 cấp độ, nhưng chắc chắn điều này sẽ không thể bảo vệ? Tôi đang hỏi tại điểm nào trở nên hợp lý khi nghĩ về việc coi các đối tượng là hiệu ứng ngẫu nhiên? Có vẻ như các tài liệu khuyên rằng 5-6 cấp độ là một giới hạn thấp hơn. Dường như với tôi rằng các ước tính về giá trị trung bình và phương sai của hiệu ứng ngẫu nhiên sẽ không chính xác cho đến khi có hơn 15 cấp độ yếu tố.

Câu trả lời:


21

Câu trả lời ngắn: Có, bạn có thể sử dụng ID làm hiệu ứng ngẫu nhiên với 6 cấp độ.

Câu trả lời dài hơn một chút: Câu hỏi thường gặp về GLMM của @ BenBolk nói (trong số những điều khác) dưới dòng tiêu đề " Tôi nên coi yếu tố xxx ​​là cố định hay ngẫu nhiên? ":

Một điểm liên quan đặc biệt đến ước tính mô hình hỗn hợp 'hiện đại' (chứ không phải ước tính phương pháp thời điểm 'cổ điển') là, vì mục đích thực tế, phải có số lượng mức hiệu ứng ngẫu nhiên hợp lý (ví dụ: khối) - nhiều hơn 5 hoặc 6 tối thiểu.

Vì vậy, bạn đang ở giới hạn dưới, nhưng ở phía bên phải của nó.


12

Trong nỗ lực tìm ra số lượng nhóm tối thiểu cho một mô hình đa cấp, tôi đã xem cuốn sách Phân tích dữ liệu bằng mô hình hồi quy và mô hình phân cấp / phân cấp của Gelman và Hill (2007).

Chúng xuất hiện để giải quyết chủ đề này trong Chương 11, Phần 5 (trang 247) nơi họ viết rằng khi có <5 nhóm thì các mô hình đa cấp thường thêm ít hơn các mô hình cổ điển. Tuy nhiên, họ dường như viết rằng có rất ít rủi ro khi áp dụng mô hình đa cấp.

Các tác giả tương tự dường như trở lại chủ đề này trong Chương 12, Phần 9 (trang 275-276). Ở đó, họ viết rằng lời khuyên về số lượng nhóm tối thiểu cho một mô hình đa cấp là sai lầm. Họ lại nói rằng các mô hình đa cấp thường thêm ít hơn các mô hình cổ điển khi số lượng nhóm nhỏ. Tuy nhiên, họ cũng viết rằng các mô hình đa cấp không nên làm tồi tệ hơn hồi quy không gộp (trong đó không xuất hiện có nghĩa là các chỉ số nhóm được sử dụng trong hồi quy cổ điển).

Trên trang 275-276, các tác giả có một tiểu mục cụ thể cho trường hợp của một hoặc hai nhóm (ví dụ: nam so với nữ). Ở đây họ viết rằng họ thường thể hiện mô hình ở dạng cổ điển. Tuy nhiên, họ tuyên bố rằng mô hình đa cấp có thể hữu ích ngay cả chỉ với một hoặc hai nhóm. Họ viết rằng với một hoặc hai nhóm mô hình đa cấp giảm xuống hồi quy cổ điển.

Ấn tượng của tôi từ điều này là hồi quy cổ điển là một kết thúc của một mô hình liên tục, nghĩa là một trường hợp đặc biệt của mô hình đa cấp.

Dựa trên những điều trên, ấn tượng của tôi là hồi quy cổ điển và mô hình đa cấp sẽ trả về các ước tính gần như giống hệt nhau khi chỉ có hai nhóm và sử dụng các mô hình đa cấp chỉ có một, hai, ba, bốn, năm hoặc sáu nhóm là được.

Tôi sẽ cố gắng sửa đổi câu trả lời này trong tương lai bằng Rmã và một bộ dữ liệu nhỏ so sánh các ước tính thu được với cả hai phương pháp khi sử dụng hai nhóm.


10

Để biết giá trị của nó, tôi đã thực hiện một nghiên cứu mô phỏng để xem xét tính ổn định của ước tính phương sai cho LMM tương đối đơn giản (sử dụng sleepstudybộ dữ liệu có sẵn thông qua lme4). Cách đầu tiên tạo ra tất cả các kết hợp chủ thể có thể cho ngroupssố lượng đối tượng và chỉnh sửa mô hình cho từng kết hợp có thể. Thứ hai có một số tập hợp con ngẫu nhiên của các đối tượng.

library(lme4)
library(ggplot2)
library(tidyr)

m0 <- lmer(Reaction ~ Days + (1|Subject), data = sleepstudy,
           control = lmerControl(optimizer = "nloptwrap"))
# set the number of factor levels
ngroups <- 3:18 
# generate all possible combinations
combos <- lapply(X = ngroups, 
                 FUN = function(x) combn(unique(sleepstudy$Subject), x)) 

# allocate output (sorry, this code is entirely un-optimized)
out <- list(matrix(NA, ncol(combos[[1]]), 1), matrix(NA, ncol(combos[[2]]), 1),
            matrix(NA, ncol(combos[[3]]), 1), matrix(NA, ncol(combos[[4]]), 1),
            matrix(NA, ncol(combos[[5]]), 1), matrix(NA, ncol(combos[[6]]), 1),
            matrix(NA, ncol(combos[[7]]), 1), matrix(NA, ncol(combos[[8]]), 1),
            matrix(NA, ncol(combos[[9]]), 1), matrix(NA, ncol(combos[[10]]), 1),
            matrix(NA, ncol(combos[[11]]), 1), matrix(NA, ncol(combos[[12]]), 1),
            matrix(NA, ncol(combos[[13]]), 1), matrix(NA, ncol(combos[[14]]), 1),
            matrix(NA, ncol(combos[[15]]), 1), matrix(NA, ncol(combos[[16]]), 1))
# took ~ 2.5 hrs on my laptop, commented out for safety
#system.time(for(ii in 1:length(combos)) {
#    for(jj in 1:ncol(combos[[ii]])) {
#    sls <- sleepstudy[sleepstudy$Subject %in% combos[[ii]][,jj],]
#    out[[ii]][jj] <- attr(VarCorr(update(m0, data = sls))$Subject, 'stddev')
#        }
#    })

# pad with zeros, not all were equal
# from http://stackoverflow.com/questions/11148429/r-convert-asymmetric-list-to-matrix-number-of-elements-in-each-sub-list-diffe
max.len <- max(sapply(out, length))
corrected.list <- lapply(out, function(x) {c(x, rep(NA, max.len - length(x)))})
mat <- do.call(rbind, corrected.list)
mat <- data.frame(t(mat))
names(mat) <- paste0('s',3:18)
mat <- gather(mat, run, value)

ggplot(mat, aes(x = value, fill = run)) + 
    geom_histogram(bins = 60) +
    geom_vline(xintercept = 37.12, linetype =  'longdash', 
               aes(colour = 'original')) +
    facet_wrap(~run, scales = 'free_y') +
    scale_x_continuous(breaks = seq(0, 100, by = 20)) + 
    theme_bw() + 
    guides(fill = FALSE)

Đường màu đen chấm là ước tính điểm gốc của phương sai và các khía cạnh đại diện cho số lượng đối tượng khác nhau ( s3là nhóm ba đối tượng, s4là bốn, v.v.). nhập mô tả hình ảnh ở đây

Và cách khác:

ngroups <- 3:18
reps <- 500
out2<- matrix(NA, length(ngroups), reps)

for (ii in 1:length(ngroups)) {
    for(j in 1:reps) {
        sls <- sleepstudy[sleepstudy$Subject %in% sample(unique(sleepstudy$Subject), ngroups[i], replace = FALSE),]
        out2[i,j] <- attr(VarCorr(update(m0, data = sls))$Subject, 'stddev')
    }
}
out2 <- data.frame(t(out2))
names(out2) <- paste0('s',3:18)
out2 <- gather(out2, run, value)

ggplot(out2, aes(x = value, fill = run)) + 
    geom_histogram(bins = 60) +
    geom_vline(xintercept = 37.12, linetype =  'longdash', 
               aes(colour = 'original')) +
    facet_wrap(~run, scales = 'free_y') +
    scale_x_continuous(breaks = seq(0, 100, by = 20)) + 
    theme_bw() + 
    guides(fill = FALSE)

nhập mô tả hình ảnh ở đây

Dường như (ví dụ này, dù sao đi nữa) rằng phương sai không thực sự ổn định cho đến khi có ít nhất 14 đối tượng, nếu không muộn hơn.


1
+1. Tất nhiên số lượng đối tượng càng nhỏ thì phương sai của công cụ ước lượng phương sai càng lớn. Nhưng tôi không nghĩ đây là vấn đề quan trọng ở đây. Câu hỏi là, số lượng đối tượng cho phép để có được một số kết quả hợp lý? Nếu chúng tôi xác định kết quả "không hợp lý" là thu được phương sai bằng 0, thì trong mô phỏng của bạn, điều đó xảy ra khá thường xuyên với n = 5 hoặc ít hơn. Bắt đầu từ n = 6 hoặc n = 7, bạn gần như không bao giờ có được ước tính chính xác về phương sai 0, tức là mô hình đang hội tụ thành một giải pháp không suy biến. Kết luận của tôi sẽ là n = 6 là đường biên chấp nhận được.
amip nói phục hồi Monica

1
BTW này phù hợp với rpub.com/bbolker/4187 .
amip nói phục hồi Monica

8

"Kinh tế lượng vô hại" của Angrist và Pischke có một phần có tiêu đề, "Ít hơn 42 cụm", trong đó họ nói đùa một cách nửa đùa,

Do đó, theo ... câu trả lời cho câu trả lời cho sự sống, vũ trụ và mọi thứ là 42, chúng tôi tin rằng câu hỏi là: Có bao nhiêu cụm đủ để suy luận đáng tin cậy bằng cách sử dụng điều chỉnh cụm tiêu chuẩn [gần giống với công cụ ước lượng phương sai trong GEE]?

Cách mà người hướng dẫn kinh tế lượng của tôi sử dụng để trả lời các câu hỏi như của bạn là: "Nước Mỹ là một đất nước tự do, bạn có thể làm bất cứ điều gì bạn muốn. Nhưng nếu bạn muốn xuất bản bài báo của mình, bạn cần có khả năng bảo vệ những gì bạn đã làm. " Nói cách khác, bạn có thể sẽ chạy mã R hoặc Stata hoặc HLM hoặc Mplus hoặc SAS PROC GLIMMIX với 6 đối tượng (và chuyển sang các gói thay thế này nếu một trong những lựa chọn của bạn không chạy này), nhưng bạn có thể sẽ có rất khó khăn trong việc bảo vệ phương pháp này và biện minh cho các xét nghiệm tiệm cận.

Tôi tin rằng theo mặc định, bao gồm cả một biến là độ dốc ngẫu nhiên, bao gồm cả biến đó là hiệu ứng cố định, và bạn cần phải vượt qua rất nhiều cú pháp cú pháp nếu bạn chỉ muốn có hiệu ứng ngẫu nhiên này với giá trị trung bình của số không. Đó là một lựa chọn hợp lý mà các nhà phát triển phần mềm đã đưa ra cho bạn.


1
Tôi đưa ra quan điểm của bạn rằng câu trả lời cho câu hỏi là, ở một mức độ nào đó, "một đoạn dây dài bao nhiêu". Tuy nhiên, tôi sẽ không đặt nhiều niềm tin vào việc ước tính giá trị trung bình hoặc phương sai từ một mẫu nhỏ hơn 15-20, do đó, sẽ không áp dụng quy tắc tương tự cho các mức hiệu ứng ngẫu nhiên. Tôi chưa bao giờ thấy bất kỳ ai bao gồm ID chủ đề là một hiệu ứng cố định ngẫu nhiên trong các nghiên cứu theo chiều dọc - đây có phải là nguyên nhân phổ biến không?
Chris

Ngoài một số lượng nhỏ các đối tượng trong mô hình hỗn hợp, các hiệu ứng ngẫu nhiên của chúng không được quan sát, do đó bạn phải trêu chọc chúng ra khỏi dữ liệu và có thể cho rằng bạn cần tương đối nhiều dữ liệu để làm điều đó một cách đáng tin cậy hơn là chỉ ước tính giá trị trung bình và phương sai khi mọi thứ được quan sát. Như vậy 42 so với 15-20 :). Tôi nghĩ ý tôi là độ dốc ngẫu nhiên, vì bạn đúng trong ID chủ đề chỉ coi là hiệu ứng ngẫu nhiên, nếu không chúng sẽ không được xác định. Nhân tiện, các nhà kinh tế không tin vào các hiệu ứng ngẫu nhiên, và xuất bản gần như độc quyền cái mà họ gọi là "hiệu ứng cố định", tức là, ước tính bên trong chủ đề.
StasK

2
+1 @StasK cho câu trả lời rất hay cho một câu hỏi rất khó giải quyết. Tôi nghĩ rằng có một chút châm biếm không cần thiết mặc dù và bạn có thể xem xét chỉnh sửa câu trả lời của mình để tôn trọng hơn một chút về OP.
Michael R. Chernick

@Michael, bạn có thể đúng rằng đây là một câu trả lời đầy tâm trạng, và có thể không cần thiết như vậy. Mặc dù vậy, OP đã chấp nhận câu trả lời mà họ muốn nghe, vì vậy anh ta đã giải quyết vấn đề này. Một câu trả lời nghiêm túc hơn sẽ chỉ ra bằng chứng mô phỏng tốt hoặc phân tích tiệm cận bậc cao hơn, nhưng tiếc là tôi không biết về các tài liệu tham khảo như vậy.
StasK

3
Đối với giá trị của nó, tôi nghĩ rằng số ma thuật "42" không phải là khi hiệu ứng ngẫu nhiên được chứng minh, nhưng khi người ta có thể thoát khỏi mà không phải lo lắng về việc hiệu chỉnh kích thước hữu hạn (ví dụ như suy nghĩ về mức độ tự do của mẫu số hiệu quả / Hiệu chỉnh Kenward-Roger / cách tiếp cận tương tự khác).
Ben Bolker 21/07/2015

7

Bạn cũng có thể sử dụng mô hình hỗn hợp Bayes - trong trường hợp đó, sự không chắc chắn trong ước tính các hiệu ứng ngẫu nhiên được quan tâm đầy đủ trong việc tính toán các khoảng tin cậy dự đoán 95%. Ví dụ, gói brmsvà chức năng R mới brmcho phép chuyển đổi rất dễ dàng từ lme4mô hình hỗn hợp thường xuyên sang mô hình Bayes, vì nó có cú pháp gần giống nhau.


4

Tôi sẽ không sử dụng mô hình hiệu ứng ngẫu nhiên chỉ với 6 cấp độ. Các mô hình sử dụng hiệu ứng ngẫu nhiên 6 cấp đôi khi có thể được chạy bằng nhiều chương trình thống kê và đôi khi đưa ra các ước tính không thiên vị, nhưng:

  1. Tôi nghĩ rằng có một sự đồng thuận tùy ý trong cộng đồng thống kê rằng 10-20 là con số tối thiểu. Nếu bạn muốn công bố nghiên cứu của mình, bạn sẽ được khuyên tìm một tạp chí mà không cần xem xét thống kê (hoặc có thể biện minh cho quyết định của mình bằng ngôn ngữ khá tinh vi).
  2. Với rất ít cụm, phương sai giữa các cụm có thể được ước tính kém. Ước lượng kém giữa phương sai cụm thường chuyển thành ước lượng kém về sai số chuẩn của các hệ số quan tâm. (mô hình hiệu ứng ngẫu nhiên dựa trên số lượng cụm theo lý thuyết sẽ đến vô cùng).
  3. Thông thường các mô hình chỉ đơn giản là không hội tụ. Bạn đã thử chạy mô hình của bạn? Tôi sẽ ngạc nhiên với chỉ 12-16 biện pháp cho mỗi đối tượng mà các mô hình hội tụ. Khi tôi quản lý để có được kiểu mô hình này để hội tụ, tôi đã có hàng trăm phép đo cho mỗi cụm.

Vấn đề này được giải quyết trong hầu hết các sách giáo khoa tiêu chuẩn trong lĩnh vực này và bạn đã sắp xếp chúng trong câu hỏi của bạn. Tôi không nghĩ rằng tôi đang cung cấp cho bạn bất kỳ thông tin mới.


Điều này đã được bỏ phiếu vì một lý do liên quan đến nội dung kỹ thuật của nó?
N Brouwer

Bạn đang làm việc với loại dữ liệu nào? Tôi không chắc tại sao bạn ngạc nhiên khi biết rằng mô hình sẽ hội tụ với 12-16 biện pháp cho mỗi cá nhân. Tôi không thể nhận xét về độ lệch trong các mô hình kết quả, nhưng tôi chưa bao giờ gặp vấn đề về sự hội tụ trong lme4các mô hình hỗn hợp và tôi thường chạy chúng trên các cỡ mẫu tương tự như OP (Tôi cũng đang làm việc với các bộ dữ liệu sinh học).
RTbecard

1

Đã lâu rồi kể từ câu hỏi ban đầu nhưng tôi nghĩ tôi có thể thêm một vài điểm thích hợp vào lựa chọn mô hình.

1 - Miễn là mô hình được xác định (nghĩa là bạn có mức độ tự do trong không gian tham số), bạn sẽ có thể TRY để phù hợp với mô hình. Tùy thuộc vào mô hình phương pháp tối ưu hóa có thể hoặc không hội tụ. Trong mọi trường hợp, tôi sẽ không cố gắng bao gồm nhiều hơn 1 hoặc 2 hiệu ứng ngẫu nhiên và chắc chắn không quá 1 tương tác ngang cấp. Trong trường hợp cụ thể của vấn đề được trình bày ở đây nếu chúng tôi nghi ngờ sự tương tác giữa các đặc điểm cụ thể của thằn lằn (ví dụ: tuổi, kích thước, v.v.) và nhóm đặc điểm điều trị / đo kích thước 6 có thể không đủ để ước tính đủ chính xác.

2 - Như một vài câu trả lời đề cập, sự hội tụ có thể là một vấn đề. Tuy nhiên, kinh nghiệm của tôi là trong khi dữ liệu khoa học xã hội có vấn đề hội tụ rất lớn do các vấn đề đo lường, khoa học đời sống và đặc biệt là các biện pháp lặp lại hóa học sinh học có lỗi tiêu chuẩn nhỏ hơn nhiều. Tất cả phụ thuộc vào quá trình tạo dữ liệu. Trong dữ liệu xã hội và kinh tế, chúng ta phải làm việc ở nhiều mức độ trừu tượng khác nhau. Trong sinh học và hóa học và chắc chắn nhất là lỗi đo lường dữ liệu thiên văn là một vấn đề ít hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.