Thứ tự biến đổi và tính biến thiên được tính toán trong mô hình hiệu ứng hỗn hợp tuyến tính


9

Giả sử rằng, trong một nghiên cứu gồm 15 đối tượng, biến phản ứng (res) được mô hình hóa với hai biến giải thích, một (mức) được phân loại với 5 cấp độ và biến còn lại (thời gian đáp ứng: RT) là liên tục. Với gói lme4 của R, tôi có:

fm1 <- lmer(res ~ level * RT + (level-1 | subject), data=mydata)
anova(fm1)

             Df  Sum Sq Mean Sq  F value
level        4  3974.9   993.7   9.2181
RT           1  1953.5  1953.5  18.1209
level:RT     4  5191.4  1297.9  12.0393

Nếu tôi thay đổi thứ tự của hai biến, tôi nhận được kết quả hơi khác nhau cho các hiệu ứng chính:

fm2 <- lmer(res ~ RT * level + (level-1 | subject), data=mydata)
anova(fm2)

             Df  Sum Sq Mean Sq  F value
RT           1  1671.8  1671.8  15.5077
level        4  4256.7  1064.2   9.8715
RT:level     4  5191.4  1297.9  12.0393

Có một sự khác biệt như vậy đến từ cách tiếp cận tuần tự (thay vì cận biên) trong lme4 trong kế toán cho sự thay đổi dữ liệu? Trong trường hợp này, thay đổi thứ tự thay đổi không dẫn đến một sự khác biệt lớn, nhưng trước đây tôi đã thấy sự khác biệt đáng kể. Một sự khác biệt lớn như vậy có nghĩa là gì? Có nghĩa là mô hình cần điều chỉnh nhiều hơn cho đến khi sự khác biệt lớn biến mất?

Câu hỏi thứ hai của tôi là, nếu tôi muốn biết biến nào trong số hai (RT và cấp) chiếm nhiều biến đổi dữ liệu hơn, thì cách tiếp cận hợp lý là gì? Dựa vào độ lớn tương đối của Sum Sq (hay Sq trung bình) của hai biến? Bất kỳ phương pháp kiểm tra thống kê để so sánh sự thay đổi giữa các biến giải thích?


Nếu bạn không thể đăng dữ liệu, ít nhất bạn có thể đưa ra đầu ra mô hình thay vì chỉ ANOVA không?
Giăng

Câu trả lời:


5

Tôi sẽ cố gắng trả lời từng câu hỏi của bạn:

Có một sự khác biệt như vậy đến từ cách tiếp cận tuần tự (thay vì cận biên) trong lme4 trong kế toán cho sự thay đổi dữ liệu?

Chính xác. Như bạn có thể thấy, chỉ đối với các tương tác là kết quả như nhau. Sự tương tác được nhập cuối cùng vào mô hình trong cả hai trường hợp, vì vậy kết quả cho thuật ngữ đó là như nhau. Tuy nhiên, nếu bạn nhập "cấp" trước và sau đó là "RT", kết quả cho "RT" sẽ cho bạn biết liệu "RT" có ý nghĩa hay không sau khi "cấp" đã có trong mô hình (và ngược lại). Những kết quả này phụ thuộc vào thứ tự.

Một sự khác biệt lớn như vậy có nghĩa là gì?

Giả sử cả hai biến tự liên quan chặt chẽ đến biến trả lời, nhưng chúng cũng có mối tương quan mạnh. Trong trường hợp đó, có thể không có nhiều biến thiên trong biến trả lời còn lại để tính cho biến được nhập thứ hai vào mô hình. Do đó, bạn sẽ có xu hướng thấy sự khác biệt lớn hơn khi các biến giải thích có tương quan.

Có nghĩa là mô hình cần điều chỉnh nhiều hơn cho đến khi sự khác biệt lớn biến mất?

Tôi không chắc ý của bạn là gì khi "điều chỉnh". Hiện tượng bạn đang quan sát không phải là vấn đề, mặc dù nó làm phức tạp việc giải thích kết quả (xem bên dưới).

Có lẽ một cách "điều chỉnh" là đây. Nếu các biến giải thích có mối tương quan cao, thì về cơ bản chúng có thể được đo lường cùng một thứ. Trong trường hợp đó, người ta có thể "điều chỉnh" mô hình bằng cách loại bỏ một trong các biến hoặc kết hợp chúng thành một biến duy nhất.

Câu hỏi thứ hai của tôi là, nếu tôi muốn biết biến nào trong số hai (RT và cấp) chiếm nhiều biến đổi dữ liệu hơn, thì cách tiếp cận hợp lý là gì? Dựa vào độ lớn tương đối của Sum Sq (hay Sq trung bình) của hai biến? Bất kỳ phương pháp kiểm tra thống kê để so sánh sự thay đổi giữa các biến giải thích?

Khi các biến giải thích có tương quan, thì việc xác định tầm quan trọng tương đối của chúng là khá khó khăn. Vấn đề này xuất hiện khá thường xuyên trong bối cảnh hồi quy bội và hàng chục bài báo đã được viết về chủ đề này và rất nhiều phương pháp để thực hiện mục tiêu này đã được đề xuất. Chắc chắn không có sự đồng thuận về cách thức phù hợp nhất và một số người thậm chí có thể đề nghị rằng không có cách nào phù hợp để làm điều đó.

Các tổng số hình vuông sẽ không giúp bạn, bởi vì chúng không dựa trên cùng một số bậc tự do. Bình phương trung bình về cơ bản đúng cho điều đó, nhưng nếu bạn sử dụng bình phương trung bình, thì điều này không gì khác hơn là sử dụng các giá trị F tương ứng (hoặc giá trị p) để xác định tầm quan trọng tương đối. Tôi nghĩ rằng hầu hết mọi người sẽ không coi đó là một cách thích hợp để xác định tầm quan trọng tương đối.

Thật không may, tôi không có một giải pháp dễ dàng. Thay vào đó, tôi có thể đề xuất một trang web cho bạn, từ tác giả của relaimpogói. Tôi không nghĩ rằng gói sẽ giúp bạn khi điều chỉnh các mô hình hiệu ứng hỗn hợp, nhưng có rất nhiều tài liệu tham khảo cho các bài báo về vấn đề bạn đang giải quyết.

http://prof.beuth-hochschule.de/groemping/relaimpo/

Bạn cũng có thể muốn xem xét các AICcmodavggói:

http://cran.r-project.org/web/packages/AICcmodavg/index.html


Thực sự đánh giá cao sự làm rõ và giúp đỡ! Về tầm quan trọng tương đối của từng biến trong mô hình hiệu ứng hỗn hợp, có hợp lý không khi xem xét sự khác biệt AIC / BIC được cung cấp bởi lme ()? Ví dụ: với dữ liệu của tôi, xác định ba mô hình: res ~ RT, res ~ level, res ~ RT * level. Sau đó sử dụng anova () để đánh giá tầm quan trọng tương đối dựa trên AIC / BIC của họ?
bluepole

Giá trị AIC / BIC thường được sử dụng để lựa chọn mô hình. Nếu đó là mục tiêu của bạn, thì có, đây là một cách tiếp cận. Nếu mục tiêu của bạn là xác định tầm quan trọng tương đối của các biến, thì bạn có thể sử dụng trọng số Akaike. Một bài thuyết trình rất hay và rõ ràng về ý tưởng đó có thể được tìm thấy ở đây: bit.ly/pDQ7eq
Wolfgang

Cảm ơn rất nhiều cho tất cả sự giúp đỡ. Tôi thực sự đánh giá cao nó ...
bluepole
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.