Liệu nó có ý nghĩa cho một hiệu ứng cố định được lồng trong một ngẫu nhiên, hoặc làm thế nào để mã hóa các biện pháp lặp đi lặp lại trong R (aov và lmer)?


23

Tôi đã xem qua tổng quan này về các công thức lm / lmer R của @conjugatep Warrior và bị nhầm lẫn bởi mục sau:

Bây giờ giả sử A là ngẫu nhiên, nhưng B là cố định và B được lồng trong A.

aov(Y ~ B + Error(A/B), data=d)

Dưới đây công thức mô hình hỗn hợp tương tự lmer(Y ~ B + (1 | A:B), data=d) được cung cấp cho trường hợp tương tự.

Tôi hoàn toàn không hiểu ý nghĩa của nó. Trong một thí nghiệm nơi các đối tượng được chia thành nhiều nhóm, chúng ta sẽ có một yếu tố ngẫu nhiên (các đối tượng) được lồng trong một yếu tố cố định (các nhóm). Nhưng làm thế nào một yếu tố cố định có thể được lồng trong một yếu tố ngẫu nhiên? Một cái gì đó cố định lồng trong các đối tượng ngẫu nhiên? Nó thậm chí có thể? Nếu không thể, các công thức R này có ý nghĩa không?


Tổng quan này được đề cập được một phần dựa trên các trang của cá tính dự án về làm ANOVA trong R bản thân dựa trên này hướng dẫn về các biện pháp lặp đi lặp lại trong R . Có ví dụ sau đây cho các biện pháp lặp lại ANOVA được đưa ra:

aov(Recall ~ Valence + Error(Subject/Valence), data.ex3)

Ở đây các đối tượng được trình bày với các từ có hóa trị khác nhau (yếu tố với ba cấp độ) và thời gian thu hồi của chúng được đo. Mỗi môn học được trình bày với các từ của cả ba cấp độ hóa trị. Tôi không thấy bất cứ điều gì được lồng trong thiết kế này (nó xuất hiện chéo, theo câu trả lời tuyệt vời ở đây ), và vì vậy tôi sẽ ngây thơ nghĩ rằng Error(Subject)hoặc (1 | Subject)nên là thuật ngữ ngẫu nhiên thích hợp trong trường hợp này. Các Subject/Valence"làm tổ" (?) Là khó hiểu.

Lưu ý rằng tôi hiểu đó Valencelà một yếu tố bên trong chủ đề . Nhưng tôi nghĩ đó không phải là yếu tố "lồng nhau" trong các môn học (bởi vì tất cả các môn học đều trải qua cả ba cấp độ Valence).


Cập nhật. Tôi đang khám phá các câu hỏi trên CV về mã hóa lặp đi lặp lại ANOVA trong R.

  • Ở đây, những điều sau đây được sử dụng cho các biện pháp A cố định / lặp lại A và ngẫu nhiên subject:

    summary(aov(Y ~ A + Error(subject/A), data = d))
    anova(lme(Y ~ A, random = ~1|subject, data = d))
  • Ở đây cho hai hiệu ứng cố định trong phạm vi chủ đề / lặp đi lặp lại A và B:

    summary(aov(Y ~ A*B + Error(subject/(A*B)), data=d))
    lmer(Y ~ A*B + (1|subject) + (1|A:subject) + (1|B:subject), data=d) 
  • Ở đây cho ba hiệu ứng bên trong chủ đề A, B và C:

    summary(aov(Y ~ A*B*C + Error(subject/(A*B*C)), data=d))
    lmer(Y ~ A*B*C + (1|subject) + (0+A|subject) + (0+B|subject) + (0+C|subject) + (0+A:B|subject) + (0+A:C|subject) + (0+B:C|subject), data = d)

Những câu hỏi của tôi:

  1. Tại sao Error(subject/A)và không Error(subject)?
  2. Là nó (1|subject)hay (1|subject)+(1|A:subject)hay đơn giản (1|A:subject)?
  3. Là nó (1|subject) + (1|A:subject)hay (1|subject) + (0+A|subject), và tại sao không đơn giản (A|subject)?

Đến bây giờ tôi đã thấy một số chủ đề tuyên bố rằng một số trong những điều này là tương đương (ví dụ: thứ nhất: một tuyên bố rằng chúng giống nhau nhưng yêu cầu ngược lại đối với SO ; thứ ba: loại khiếu nại rằng chúng giống nhau ). Có phải họ không?


2
Chỉ cần một nhận xét nhanh để nói rằng, nói một cách nghiêm túc về mặt khái niệm , theo tôi, hầu như không bao giờ có ý nghĩa khi có một yếu tố cố định được lồng trong một yếu tố ngẫu nhiên. Tôi đã đọc ít nhất một tác giả sách giáo khoa nói nhiều như vậy (không thể nhớ tham khảo tại thời điểm này). Điều đó nói rằng, có thể một số thông số kỹ thuật mô hình mà bạn đã viết ở trên có thể tương đương về mặt thống kê với các mô hình có ý nghĩa hơn ... Tôi phải suy nghĩ về nó nhiều hơn và chơi xung quanh nó một chút.
Jake Westfall

4
Trên thực tế tôi đoán nó có ý nghĩa nếu bạn nghĩ về cách R diễn giải cú pháp A / B: nó chỉ đơn giản mở rộng điều này thành A + A: B. Vì vậy, nếu chúng ta xem xét một thuật ngữ ngẫu nhiên như thế subject/condition, thì đây là khái niệm không rõ ràng vì dường như nó gợi ý rằng các điều kiện được lồng trong các đối tượng, khi rõ ràng nó ngược lại, nhưng mô hình thực sự phù hợp là subject + subject:condition, một mô hình hoàn toàn hợp lệ với các hiệu ứng chủ thể ngẫu nhiên và đối tượng ngẫu nhiên X dốc.
Jake Westfall

@JakeWestfall Cảm ơn, đây là lúc tôi nghĩ về nó, nhưng tôi rất muốn ai đó giải thích nó một cách chính xác. Thật ra tôi ngạc nhiên rằng đây là một câu hỏi không hề nhỏ; Tôi đã mong đợi bạn là một trong những người sẽ trả lời ngay lập tức. Nhưng đây là một sự giải thoát, vì ban đầu tôi nghĩ rằng sự nhầm lẫn của tôi phải bị câm. Nhân tiện, có một số tài liệu tham khảo tiêu chuẩnlmaovcông thức? Nếu tôi muốn có một nguồn có thẩm quyền về chính xác những gì aov(nó là một trình bao bọc cho lm?) Và các Error()điều khoản hoạt động như thế nào , tôi nên tìm ở đâu?
amip nói rằng Phục hồi Monica

1
@amoeba Có, aovlà một trình bao bọc lmtheo nghĩa lmđược sử dụng cho bình phương nhỏ nhất phù hợp, nhưng aovthực hiện một số công việc bổ sung (đáng chú ý là dịch thuật Errorngữ cho lm). Nguồn có thẩm quyền là mã nguồn hoặc có thể là tài liệu tham khảo được đưa ra trong help("aov"): Chambers et al (1992). Nhưng tôi không có quyền truy cập vào tài liệu tham khảo đó, vì vậy tôi sẽ xem xét mã nguồn.
Roland

Câu trả lời:


12

Trong các mô hình hỗn hợp, việc xử lý các yếu tố là cố định hoặc ngẫu nhiên, đặc biệt kết hợp với việc chúng được lai, chéo một phần hoặc lồng nhau có thể dẫn đến nhiều nhầm lẫn. Ngoài ra, dường như có sự khác biệt về thuật ngữ giữa ý nghĩa của việc lồng trong thế giới thí nghiệm / thiết kế anova và thế giới mô hình hỗn hợp / đa cấp.

Tôi không tuyên bố muốn biết tất cả các câu trả lời và câu trả lời của tôi sẽ không đầy đủ (và có thể tạo thêm câu hỏi) nhưng tôi sẽ cố gắng giải quyết một số vấn đề ở đây:

Liệu nó có ý nghĩa cho một hiệu ứng cố định được lồng trong một ngẫu nhiên, hoặc làm thế nào để mã hóa các biện pháp lặp đi lặp lại trong R (aov và lmer)?

(tiêu đề câu hỏi)

Không, tôi không tin điều này có ý nghĩa. Khi chúng ta đang xử lý các biện pháp lặp đi lặp lại, thì thông thường bất cứ điều gì là các biện pháp được lặp đi lặp lại sẽ là ngẫu nhiên, hãy gọi nó Subjectlme4chúng ta sẽ muốn đưa Subjectvào bên phải của một hoặc nhiều |phần trong phần ngẫu nhiên của công thức. Nếu chúng ta có các hiệu ứng ngẫu nhiên khác, thì chúng là chéo, chéo một phần hoặc lồng nhau - và câu trả lời của tôi cho điều này câu hỏi giải quyết điều đó.

Vấn đề với các thí nghiệm được thiết kế kiểu anova này dường như là làm thế nào để đối phó với các yếu tố thường được coi là cố định, trong tình huống đo lặp lại và các câu hỏi trong cơ thể của OP nói lên điều này:

Tại sao Lỗi (chủ đề / A) mà không phải Lỗi (chủ đề)?

Tôi không thường sử dụng aov()vì vậy tôi có thể thiếu một cái gì đó, nhưng đối với tôi, Error(subject/A)nó rất dễ gây hiểu lầm trong trường hợp câu hỏi được liên kết . Error(subject)trong thực tế dẫn đến kết quả chính xác như nhau.

Là (1 | chủ đề) hay (1 | chủ đề) + (1 | A: chủ đề) hay đơn giản (1 | A: chủ đề)?

Điều này liên quan đến câu hỏi này . Trong trường hợp này, tất cả các công thức hiệu ứng ngẫu nhiên sau đây dẫn đến kết quả chính xác như nhau:

(1|subject)
(1|A:subject)
(1|subject) + (1|A:subject)
(1|subject) + (1|A:subject) + (1|B:subject)

Tuy nhiên, điều này là do bộ dữ liệu mô phỏng trong câu hỏi không có biến thể trong bất cứ điều gì, nó chỉ được tạo ra với Y = rnorm(48). Nếu chúng tôi lấy một tập dữ liệu thực như caketập dữ liệu trong lme4, chúng tôi thấy rằng điều này thường không phải là trường hợp. Từ tài liệu, đây là thiết lập thử nghiệm:

Dữ liệu về góc vỡ của bánh sô cô la được làm bằng ba công thức khác nhau và nướng ở sáu nhiệt độ khác nhau. Đây là một thiết kế chia ô với các công thức nấu ăn là toàn bộ đơn vị và nhiệt độ khác nhau được áp dụng cho các đơn vị phụ (trong các bản sao). Các ghi chú thử nghiệm cho thấy việc đánh số sao chép thể hiện thứ tự thời gian.

Một khung dữ liệu với 270 quan sát trên 5 biến sau.

replicate một yếu tố với cấp độ 1 đến 15

recipe một yếu tố với cấp độ A, B và C

temperature một yếu tố được đặt hàng với các mức 175 <185 <195 <205 <215 <225

temp giá trị số của nhiệt độ nướng (độ F).

angle một vectơ số cho góc mà bánh bị vỡ.

Vì vậy, chúng tôi đã lặp đi lặp lại các biện pháp bên trong replicatevà chúng tôi cũng quan tâm đến các yếu tố cố định recipetemperature(chúng tôi có thể bỏ qua tempvì đây chỉ là một mã hóa khác temperature) và chúng tôi có thể hình dung tình huống bằng cách sử dụng xtabs:

> xtabs(~recipe+replicate,data=cake)

     replicate
recipe 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
     A 6 6 6 6 6 6 6 6 6  6  6  6  6  6  6
     B 6 6 6 6 6 6 6 6 6  6  6  6  6  6  6
     C 6 6 6 6 6 6 6 6 6  6  6  6  6  6  6

Nếu recipelà một hiệu ứng ngẫu nhiên, chúng tôi sẽ nói rằng đây là những hiệu ứng ngẫu nhiên chéo. Không có cách nào recipe Athuộc về replicate 1hoặc bất kỳ bản sao khác.

> xtabs(~temp+replicate,data=cake)

     replicate
temp  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
  175 3 3 3 3 3 3 3 3 3  3  3  3  3  3  3
  185 3 3 3 3 3 3 3 3 3  3  3  3  3  3  3
  195 3 3 3 3 3 3 3 3 3  3  3  3  3  3  3
  205 3 3 3 3 3 3 3 3 3  3  3  3  3  3  3
  215 3 3 3 3 3 3 3 3 3  3  3  3  3  3  3
  225 3 3 3 3 3 3 3 3 3  3  3  3  3  3  3

Tương tự cho temp.

Vì vậy, mô hình đầu tiên chúng ta có thể phù hợp là:

> lmm1 <-  lmer(angle ~ recipe * temperature + (1|replicate), cake, REML= FALSE)

Điều này sẽ coi mỗi replicatecái là nguồn biến đổi ngẫu nhiên duy nhất (trừ phần dư của khóa học). Nhưng có thể có sự khác biệt ngẫu nhiên giữa các công thức nấu ăn. Vì vậy, chúng tôi có thể được recipekhuyến khích đưa vào như một hiệu ứng ngẫu nhiên (chéo) khác nhưng điều đó sẽ không được khuyến khích vì chúng tôi chỉ có 3 cấp độ recipevì vậy chúng tôi không thể mong đợi mô hình ước tính tốt các thành phần phương sai. Vì vậy, thay vào đó chúng ta có thể sử dụng replicate:recipelàm biến nhóm để cho phép chúng ta coi mỗi kết hợp sao chép và công thức là một yếu tố nhóm riêng biệt. Vì vậy, trong khi với mô hình trên, chúng ta sẽ có 15 lần chặn ngẫu nhiên cho các cấp độ, replicategiờ đây chúng ta sẽ có 45 lần chặn ngẫu nhiên cho mỗi kết hợp riêng biệt:

lmm3 <-  lmer(angle ~ recipe * temperature + (1|replicate:recipe) , cake, REML= FALSE)

Lưu ý rằng bây giờ chúng tôi có (rất nhẹ) các kết quả khác nhau cho thấy rằng có một số thay đổi ngẫu nhiên do công thức, nhưng không phải là một vấn đề lớn.

Chúng tôi cũng có thể làm điều tương tự với temperature.

Bây giờ, quay trở lại câu hỏi của bạn, bạn cũng hỏi

Tại sao (1|subject) + (1|A:subject)và không (1|subject) + (0+A|subject)hoặc thậm chí đơn giản (A|subject)?

Tôi không hoàn toàn chắc chắn điều này (sử dụng độ dốc ngẫu nhiên) đến từ đâu - dường như không xuất hiện trong 2 câu hỏi được liên kết - nhưng vấn đề của tôi (1|subject) + (1|A:subject)là nó giống hệt như (1|subject/A)điều đó có nghĩa Alà được lồng vào bên trong subject, trong đó lần lượt có nghĩa là (với tôi) rằng mỗi cấp độ Axảy ra trong 1 và chỉ có 1 cấp độ subjectrõ ràng không phải là trường hợp ở đây.

Tôi có thể sẽ thêm và / hoặc chỉnh sửa câu trả lời này sau khi tôi nghĩ thêm về nó, nhưng tôi muốn giảm bớt những suy nghĩ ban đầu của mình.


Cảm ơn rất nhiều (+1). Tôi không chắc chắn tôi hiểu cakedữ liệu. Có vẻ như nhân rộng được lồng trong công thức; lý do xtabskhông cho thấy nó chính xác là lý do bạn mô tả trong câu trả lời lồng nhau của bạn: sao chép được mã hóa một cách khó hiểu là 1-15 và không phải là 1-45. Đối với mỗi công thức, 15 "bản sao" được làm với 6 chiếc bánh; mỗi chiếc bánh sau đó được nướng ở nhiệt độ khác nhau. Vì vậy, công thức là một yếu tố giữa chủ đề và nhiệt độ là một yếu tố bên trong chủ đề. Vì vậy, theo câu trả lời của bạn, nó nên được (1|recipe/replicate). Không? (1|replicate:recipe)có lẽ là tương đương
amip nói rằng Phục hồi Monica

Tôi chỉ tập trung câu hỏi của mình vào các yếu tố bên trong chủ đề, vì vậy nó sẽ giống như chỉ giới hạn caketrong một công thức duy nhất. Về điểm thứ ba mà bạn nói rằng bạn không chắc chắn nó đến từ đâu, vui lòng xem liên kết cuối cùng trong Q của tôi, với một ví dụ về ba yếu tố bên trong chủ đề. Xem thêm bình luận nâng cao của Jake dưới Q này, nơi anh ấy đề cập đến các sườn dốc ngẫu nhiên.
amip nói rằng Phục hồi Monica

Và liên quan đến aovbạn là có vẻ như điều đó Error(subject/A)Error(subject)mang lại kết quả tương tự nếu không có yếu tố nào khác, nhưng lấy một ví dụ từ luồng được liên kết với hai yếu tố, và có Error(subject/(A*B))Error(subject)không tương đương. Sự hiểu biết hiện tại của tôi là bởi vì trước đây bao gồm các sườn dốc ngẫu nhiên.
amip nói rằng Phục hồi Monica

@amoeba cakebộ dữ liệu không phải là một ví dụ hoạt động tốt. Lời xin lỗi của tôi. Tôi sẽ nhìn sâu hơn một chút vào nó và có lẽ cố gắng tìm một cái tốt hơn để minh họa.
Robert Long

Cảm ơn. Mong chờ bất kỳ bản cập nhật nào, cũng như bản cập nhật mà Placidia đang chuẩn bị. Trong khi đó, tôi nghĩ rằng tôi sẽ có một tiền thưởng ở đây.
amip nói rằng Phục hồi lại

3

Ôi. Những người bình luận cảnh báo đã phát hiện ra rằng bài viết của tôi đầy vô nghĩa. Tôi đã nhầm lẫn thiết kế lồng nhau và thiết kế biện pháp lặp đi lặp lại.

Trang web này cung cấp một phân tích hữu ích về sự khác biệt giữa các thiết kế biện pháp lồng nhau và lặp đi lặp lại. Thật thú vị, tác giả cho thấy các bình phương trung bình dự kiến ​​được cố định trong cố định, ngẫu nhiên trong cố định và ngẫu nhiên trong ngẫu nhiên - nhưng không cố định trong ngẫu nhiên. Thật khó để tưởng tượng điều đó có nghĩa là gì - nếu các yếu tố ở cấp độ A được chọn ngẫu nhiên, thì tính ngẫu nhiên hiện chi phối việc lựa chọn các yếu tố của cấp độ B. Nếu 5 trường được chọn ngẫu nhiên từ một hội đồng trường, và sau đó 3 giáo viên được chọn từ mỗi trường (giáo viên lồng trong trường), các cấp độ của yếu tố "giáo viên" hiện là một lựa chọn ngẫu nhiên của giáo viên từ hội đồng trường nhờ vào việc lựa chọn ngẫu nhiên các trường. Tôi không thể "sửa chữa" các giáo viên mà tôi sẽ có trong thí nghiệm.


2
+1, cảm ơn rất nhiều. Tất cả mọi thứ trong câu trả lời của bạn có ý nghĩa với tôi. Tuy nhiên, tôi nghĩ chúng ta nên đồng ý rằng từ "lồng nhau" đang được sử dụng theo hai nghĩa riêng biệt và điều này gây ra sự nhầm lẫn. @RobertLong nói rằng A được lồng trong B khi mỗi cấp độ B xảy ra cùng với các cấp độ AEg khác nhau được lồng trong các trường được lồng trong thị trấn, v.v. Trong ví dụ của bạn, các đối tượng được lồng trong hệ số điều trị / kiểm soát. Bạn nói rằng thời gian được lồng trong các môn học, nhưng tất cả các mức thời gian xảy ra với tất cả các môn học nên Robert sẽ nói rằng chúng bị vượt qua! Đây là một "lồng" khác nhau. Đúng?
amip nói rằng Phục hồi lại

1
Trong ví dụ của bạn, rõ ràng thời gian và điều trị là những tác động cố định, nhưng không rõ ràng rằng thời gian được lồng trong bệnh nhân. Xin vui lòng bạn có thể cung cấp một định nghĩa của "lồng nhau"?
Joe King

Lỗi của tôi. Tôi đã nhầm lẫn làm tổ và các biện pháp lặp đi lặp lại. Tôi đã thay đổi câu trả lời của mình - một lần nữa!.
Placidia

Trên thực tế tôi thích câu trả lời ban đầu của bạn với sửa chữa / bổ sung từ đầu ngày hôm nay. Có rất nhiều thông tin hữu ích cho câu hỏi của tôi bởi vì như bạn thấy tôi thực sự quan tâm đến "các biện pháp lặp đi lặp lại" ở đây (và câu hỏi về "làm tổ" chỉ là một điểm thuật ngữ). Tôi sẽ đề nghị bạn giữ bản sửa đổi trước đó!
amip nói phục hồi Monica

2
Khi tôi đang viết nó, tôi nhận ra rằng các hiệu ứng ngẫu nhiên trong các biện pháp lặp đi lặp lại được lồng vào nhau và tôi muốn kiểm tra cách toán học hoạt động và mức độ tự do. Tôi sẽ khuếch đại câu trả lời của mình khi tôi chắc chắn rằng tôi có cái đinh này!
Placidia
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.