Xử lý sự phù hợp với số ít trong các mô hình hỗn hợp


16

Hãy nói rằng chúng ta có một mô hình

mod <- Y ~ X*Condition + (X*Condition|subject)

# Y = logit variable  
# X = continuous variable  
# Condition = values A and B, dummy coded; the design is repeated 
#             so all participants go through both Conditions  
# subject = random effects for different subjects 

summary(model)
Random effects:
 Groups  Name             Variance Std.Dev. Corr             
 subject (Intercept)      0.85052  0.9222                    
         X                0.08427  0.2903   -1.00            
         ConditionB       0.54367  0.7373   -0.37  0.37      
         X:ConditionB     0.14812  0.3849    0.26 -0.26 -0.56
Number of obs: 39401, groups:  subject, 219

Fixed effects:
                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)       2.49686    0.06909   36.14  < 2e-16 ***
X                -1.03854    0.03812  -27.24  < 2e-16 ***
ConditionB       -0.19707    0.06382   -3.09  0.00202 ** 
X:ConditionB      0.22809    0.05356    4.26 2.06e-05 ***

Ở đây chúng tôi quan sát một sự phù hợp duy nhất, bởi vì mối tương quan giữa hiệu ứng đánh chặn và x ngẫu nhiên là -1. Bây giờ, theo liên kết hữu ích này, một cách để đối phó với mô hình này là loại bỏ các hiệu ứng ngẫu nhiên bậc cao (ví dụ: X: conditionB) và xem liệu điều đó có tạo ra sự khác biệt khi thử nghiệm tính đơn lẻ hay không. Cách khác là sử dụng phương pháp Bayes, ví dụ, blmegói để tránh sự kỳ dị.

Phương pháp được ưu tiên là gì và tại sao?

Tôi đang hỏi điều này bởi vì sử dụng cái đầu tiên hoặc cái thứ hai dẫn đến các kết quả khác nhau - trong trường hợp đầu tiên, tôi sẽ loại bỏ hiệu ứng ngẫu nhiên X: conditionB và sẽ không thể ước tính được mối tương quan giữa các hiệu ứng ngẫu nhiên X và X: conditionB. Mặt khác, việc sử dụng blmecho phép tôi giữ X: conditionB và ước tính mối tương quan đã cho. Tôi thấy không có lý do tại sao tôi thậm chí nên sử dụng các ước tính phi vịnh và loại bỏ các hiệu ứng ngẫu nhiên khi sự phù hợp số ít xảy ra khi tôi có thể ước tính mọi thứ với phương pháp Bayes.

Ai đó có thể giải thích cho tôi những lợi ích và vấn đề bằng cách sử dụng một trong hai phương pháp để đối phó với sự phù hợp với số ít không?

Cảm ơn bạn.


Bạn lo lắng gì về điều đó = -1? Đó là mối tương quan giữa các hiệu ứng ngẫu nhiên.
dùng158565

Vì vậy, mỗi đối tượng cung cấp cho bạn hai phép đo Y, một trong điều kiện A và một trong điều kiện B? Nếu đó là sự thật, bạn cũng có thể cho chúng tôi biết giá trị của biến X liên tục có thay đổi đối với bất kỳ đối tượng đã cho nào giữa các điều kiện A và B không?
Isabella Ghement

Tại sao bạn đặt điều kiện trong các hiệu ứng ngẫu nhiên? Bạn đã thử nghiệm nếu nó được yêu cầu?
Dimitris Rizopoulos

@ user158565 có nhưng nó biểu thị sự độc thân ...
User33268

@IsabellaGhement Thật vậy. Đúng vậy, x thay đổi cho bất kỳ đối tượng cụ thể nào giữa A và B. Hơn nữa, có lý do về mặt lý thuyết để cho rằng hồi quy của Y trên X là khác nhau đối với mọi đối tượng
Người dùng33268

Câu trả lời:


21

Khi bạn có được sự phù hợp với số ít, điều này thường chỉ ra rằng mô hình bị quá mức - nghĩa là cấu trúc hiệu ứng ngẫu nhiên quá phức tạp để được hỗ trợ bởi dữ liệu, điều này dẫn đến lời khuyên là loại bỏ phần phức tạp nhất của các hiệu ứng ngẫu nhiên cấu trúc (thường là dốc ngẫu nhiên). Lợi ích của phương pháp này là nó dẫn đến một mô hình khác biệt hơn mà không được trang bị quá mức.

Tuy nhiên, trước khi làm bất cứ điều gì, bạn có một lý do chính đáng cho việc X, Conditionvà sự tương tác của họ, tất cả thay đổi theo chủ đề ở nơi đầu tiên? Liệu lý thuyết về cách dữ liệu được tạo ra gợi ý điều này?

Nếu bạn muốn điều chỉnh mô hình với cấu trúc hiệu ứng ngẫu nhiên tối đa và lme4có được sự phù hợp duy nhất, thì việc điều chỉnh cùng một mô hình trong khung Bayes có thể thông báo rất rõ cho bạn tại sao lme4 có vấn đề, bằng cách kiểm tra các ô theo dõi và cách ước tính các tham số khác nhau hội tụ . Lợi thế của việc sử dụng phương pháp Bayes là bằng cách làm như vậy bạn có thể phát hiện ra một vấn đề với mô hình ban đầu tức là. lý do tại sao cấu trúc hiệu ứng ngẫu nhiên tối đa không được hỗ trợ bởi dữ liệu) hoặc có thể phát hiện ra lý do tại sao lme4không thể phù hợp với mô hình. Tôi đã gặp phải tình huống trong đó một mô hình Bayes không hội tụ tốt, trừ khi các linh mục thông tin được sử dụng - điều này có thể hoặc không thể ổn.

Tóm lại, cả hai cách tiếp cận đều có công.

Tuy nhiên, tôi sẽ luôn bắt đầu từ một nơi mà mô hình ban đầu được phân tích kỹ lưỡng và được thông báo bởi kiến ​​thức chuyên môn về miền để xác định cấu trúc hiệu ứng ngẫu nhiên phù hợp nhất. Xác định các biến nhóm là tương đối dễ dàng, nhưng dốc ngẫu nhiên thường không được bao gồm. Chỉ bao gồm chúng nếu chúng có ý nghĩa lý thuyết âm thanh VÀ chúng được hỗ trợ bởi dữ liệu.

Chỉnh sửa: Nó được đề cập trong các ý kiến ​​rằng có những lý do lý thuyết hợp lý để phù hợp với cấu trúc hiệu ứng ngẫu nhiên tối đa. Vì vậy, một cách tương đối dễ dàng để tiến hành một mô hình Bayes tương đương là để trao đổi các cuộc gọi đến glmervới stan_glmertừ rstanarmgói - nó được thiết kế để plug and play. Nó có các linh mục mặc định, vì vậy bạn có thể nhanh chóng trang bị một mô hình. Gói này cũng có nhiều công cụ để đánh giá sự hội tụ. Nếu bạn thấy rằng tất cả các tham số đã hội tụ đến các giá trị hợp lý, thì bạn đều ổn. Tuy nhiên, có thể có một số vấn đề - ví dụ: phương sai được ước tính bằng hoặc dưới 0 hoặc ước tính tiếp tục trôi. Trang web mc-stan.org có rất nhiều thông tin và diễn đàn người dùng.


1
Có, tôi có lý do lý thuyết tốt để cho rằng hồi quy của Y trên X nên khác nhau giữa các đối tượng khác nhau đối với điều kiện A và B. Hồi quy ngụ ý kiểu xử lý. Bạn có thể cho tôi thêm một số thông tin về cách diễn giải các ô theo dõi như một công cụ chẩn đoán cho các nguyên nhân đơn lẻ không?
Người dùng33268

11

Đây là một chủ đề rất thú vị, với câu trả lời và ý kiến ​​thú vị! Vì điều này chưa được đưa lên, tôi muốn chỉ ra rằng chúng tôi có rất ít dữ liệu cho từng đối tượng (theo tôi hiểu). Thật vậy, mỗi đối tượng chỉ có hai giá trị cho mỗi biến trả lời Y, biến phân loại Điều kiện và biến liên tục X. Đặc biệt, chúng ta biết rằng hai giá trị của Điều kiện là A và B.

Nếu chúng ta theo đuổi mô hình hồi quy hai giai đoạn thay vì mô hình hiệu ứng hỗn hợp, chúng ta thậm chí không thể điều chỉnh mô hình hồi quy tuyến tính với dữ liệu từ một đối tượng cụ thể, như được minh họa trong ví dụ đồ chơi dưới đây cho một trong các đối tượng:

y <- c(4, 7)
condition <- c("A", "B")
condition <- factor(condition)
x <- c(0.2, 0.4)

m <- lm(y ~ condition*x)
summary(m)

Đầu ra của mô hình cụ thể theo chủ đề này sẽ là:

Call:
lm(formula = y ~ condition * x)

Residuals:
ALL 2 residuals are 0: no residual degrees of freedom!

Coefficients: (2 not defined because of singularities)
         Estimate Std. Error t value Pr(>|t|)
(Intercept)         4         NA      NA       NA
conditionB          3         NA      NA       NA
x                  NA         NA      NA       NA
conditionB:x       NA         NA      NA       NA

Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:      1,     Adjusted R-squared:    NaN 
F-statistic:   NaN on 1 and 0 DF,  p-value: NA

Lưu ý rằng sự phù hợp của mô hình bị các điểm kỳ dị, vì chúng tôi đang cố gắng ước tính 4 hệ số hồi quy cộng với độ lệch chuẩn lỗi chỉ bằng 2 quan sát.

Điểm kỳ dị sẽ tồn tại ngay cả khi chúng ta quan sát chủ đề này hai lần - thay vì một lần - theo từng điều kiện. Tuy nhiên, nếu chúng ta quan sát đối tượng 3 lần trong mỗi điều kiện, chúng ta sẽ thoát khỏi điểm kỳ dị:

y <- c(4, 7, 3, 5, 1, 2)
condition <- c("A", "B", "A","B","A","B")
condition <- factor(condition)
x <- c(0.2, 0.4, 0.1, 0.3, 0.3, 0.5)

m2 <- lm(y ~ condition*x)
summary(m2)

Đây là đầu ra R tương ứng cho ví dụ thứ hai này, từ đó các điểm kỳ dị đã biến mất:

>     summary(m2)

Call:
lm(formula = y ~ condition * x)

Residuals:
    1       2       3       4       5       6 
1.3333  2.3333 -0.6667 -1.1667 -0.6667 -1.1667 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)
(Intercept)     4.667      3.555   1.313    0.320
conditionB      6.000      7.601   0.789    0.513
x             -10.000     16.457  -0.608    0.605
conditionB:x   -5.000     23.274  -0.215    0.850

Residual standard error: 2.327 on 2 degrees of freedom
Multiple R-squared:  0.5357,    Adjusted R-squared:  -0.1607 
F-statistic: 0.7692 on 3 and 2 DF,  p-value: 0.6079

Tất nhiên, mô hình hiệu ứng hỗn hợp không phù hợp với các mô hình hồi quy tuyến tính riêng biệt không liên quan cho từng đối tượng - nó phù hợp với các mô hình "có liên quan" có giao thoa và / hoặc độ dốc ngẫu nhiên về một giao thoa và / hoặc độ dốc điển hình, sao cho độ lệch ngẫu nhiên so với đánh chặn điển hình và / hoặc độ dốc điển hình tuân theo phân phối Bình thường với giá trị trung bình bằng 0 và một số độ lệch chuẩn không xác định.

Mặc dù vậy, trực giác của tôi cho thấy mô hình hiệu ứng hỗn hợp đang vật lộn với số lượng quan sát nhỏ - chỉ 2 - có sẵn cho mỗi đối tượng. Mô hình càng được tải với độ dốc ngẫu nhiên, nó càng có thể vật lộn. Tôi nghi ngờ rằng, nếu mỗi đối tượng đóng góp 6 quan sát thay vì 2 (nghĩa là 3 cho mỗi điều kiện), nó sẽ không còn đấu tranh để phù hợp với tất cả các độ dốc ngẫu nhiên.

Dường như với tôi rằng đây có thể là (?) Một trường hợp trong đó thiết kế nghiên cứu hiện tại không hỗ trợ cho tham vọng mô hình phức tạp - để hỗ trợ những tham vọng đó, sẽ cần nhiều quan sát hơn trong từng điều kiện cho từng đối tượng (hoặc ít nhất là đối với một số đối tượng đối tượng?). Đây chỉ là trực giác của tôi vì vậy tôi hy vọng những người khác có thể thêm những hiểu biết của họ vào những quan sát của tôi ở trên. Cảm ơn bạn trước!


Tôi phải sửa lỗi cho bạn - mỗi người tham gia có 30 quan sát cho cả X và Y, trong cả hai điều kiện A và B!
Người dùng33268

2
Ồ, điều đó không được chỉ ra trong câu trả lời ban đầu của bạn nên tôi không thể đoán được có bao nhiêu quan sát cho mỗi đối tượng và điều kiện bạn thực sự có. Có một cái gì đó khác đang xảy ra sau đó. Bạn đã thử chuẩn hóa biến X của mình chưa? Điều đó có giúp lme phù hợp không? Ngoài ra, bạn có xem xét các ô của Y so với X (hoặc X được tiêu chuẩn hóa) cho Điều kiện = A so với Điều kiện = B riêng cho từng đối tượng không? Điều đó có thể cung cấp cho bạn manh mối bổ sung về những gì đang xảy ra.
Isabella Ghement

Tôi đã không chuẩn hóa x vì đó là dữ liệu thời gian phản ứng và điều quan trọng là giải thích hệ số hồi quy. Tuy nhiên, dữ liệu đã được tập trung. Tôi sẽ xem xét từng lô riêng lẻ và xem ...
User33268

1
@ User33268 Tôi đến bữa tiệc muộn một chút, nhưng bạn vẫn có thể diễn giải các hệ số được tiêu chuẩn hóa, bạn chỉ cần lưu trữ các giá trị được sử dụng để chia tỷ lệ và sau đó quay lại sau khi chạy mô hình.
Frans Rodenburg
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.