Khi nào sử dụng mô hình hiệu ứng hỗn hợp?


11

Các mô hình hiệu ứng hỗn hợp tuyến tính là phần mở rộng của các mô hình hồi quy tuyến tính cho dữ liệu được thu thập và tóm tắt trong các nhóm. Những lợi thế chính là các hệ số có thể thay đổi đối với một hoặc nhiều biến nhóm.

Tuy nhiên, tôi đang vật lộn với khi nào nên sử dụng mô hình hiệu ứng hỗn hợp? Tôi sẽ giải thích các câu hỏi của mình bằng cách sử dụng một ví dụ đồ chơi với các trường hợp cực đoan.

Giả sử chúng ta muốn mô hình chiều cao và cân nặng cho động vật và chúng ta sử dụng các loài làm biến nhóm.

  • Nếu nhóm / loài khác nhau thực sự khác nhau. Nói một con chó và voi. Tôi nghĩ không có điểm nào sử dụng mô hình hiệu ứng hỗn hợp, chúng ta nên xây dựng một mô hình cho mỗi nhóm.

  • Nếu nhóm / loài khác nhau thực sự giống nhau. Nói một con chó cái và một con chó đực. Tôi nghĩ rằng chúng ta có thể muốn sử dụng giới tính như một biến phân loại trong mô hình.

Vì vậy, tôi giả sử chúng ta nên sử dụng mô hình hiệu ứng hỗn hợp trong trường hợp giữa? Nói, nhóm là mèo, chó, thỏ, chúng là những động vật có kích thước tương tự nhưng khác nhau.

Có bất kỳ đối số chính thức nào để đề xuất khi sử dụng mô hình hiệu ứng hỗn hợp, nghĩa là, làm thế nào để vẽ các đường giữa

  1. Xây dựng mô hình cho từng nhóm
  2. Mô hình hiệu ứng hỗn hợp
  3. Sử dụng nhóm như một biến phân loại trong hồi quy

Nỗ lực của tôi: Phương pháp 1 là "mô hình phức tạp" nhất / mức độ tự do ít hơn và phương pháp 3 là "mô hình đơn giản" nhất / mức độ tự do hơn. Và mô hình hiệu ứng hỗn hợp là ở giữa. Chúng tôi có thể xem xét có bao nhiêu dữ liệu và mức độ phức tạp của dữ liệu để chọn mô hình phù hợp theo Bais Variance Trade Off.


5
Điều này được thảo luận trong rất nhiều chủ đề trên diễn đàn này. Bạn đã tìm kiếm một số? Lưu ý rằng tùy chọn của bạn với "biến phân loại" là cái được gọi là "hiệu ứng cố định" (của biến nhóm), trong khi ý của bạn là "sử dụng mô hình hỗn hợp" đang sử dụng "hiệu ứng ngẫu nhiên". Vì vậy, những gì bạn đang yêu cầu, là khi nào sử dụng cố định và khi nào sử dụng hiệu ứng ngẫu nhiên. Có nhiều ý kiến ​​khác nhau về câu hỏi này, và bạn có thể tìm thấy nhiều cuộc thảo luận ở đây trên CV. Tôi có thể gửi một số liên kết sau.
amip nói rằng Phục hồi lại

Ngoài ra, sự khác biệt giữa "xây dựng các mô hình riêng biệt" và "sử dụng biến phân loại" đối với tôi không rõ ràng. activity ~ condition + species + condition*species- điều này sử dụng speciesnhư một biến phân loại, nhưng điều này hoàn toàn tương đương với một hồi quy riêng activity ~ conditioncho từng loài riêng biệt.
amip nói rằng Phục hồi lại

2
Kiểm tra chủ đề này: stats.stackexchange.com/questions/120964/ , nó không trả lời trực tiếp câu hỏi của bạn, nhưng cung cấp một cuộc thảo luận liên quan chặt chẽ đến câu hỏi của bạn.
Tim

3
Chà, bạn đã đọc thống kê.stackexchange.com/a/151800/28666 , để bắt đầu chưa?
amip nói rằng Phục hồi lại

2
"Nếu các nhóm / loài khác nhau thực sự khác nhau. Nói một con chó và voi. Tôi nghĩ rằng không có điểm nào sử dụng mô hình hiệu ứng hỗn hợp, chúng ta nên xây dựng một mô hình cho mỗi nhóm." Điều này thực sự chỉ đúng nếu bạn mong đợi tác động của tất cả các tính năng khác sẽ khác nhau tùy theo loài. Đây là, trong hầu hết các tình huống, quá tự do một giả định.
Matthew Drury

Câu trả lời:


8

Tôi sợ rằng tôi có thể có câu trả lời sắc thái và có lẽ không thỏa mãn rằng đó là một lựa chọn chủ quan của nhà nghiên cứu hoặc nhà phân tích dữ liệu. Như đã đề cập ở những nơi khác trong chủ đề này, không đủ để nói rằng dữ liệu có "cấu trúc lồng nhau". Mặc dù vậy, công bằng mà nói, đây là cách nhiều sách mô tả khi sử dụng các mô hình đa cấp. Ví dụ: tôi vừa rút cuốn sách Phân tích đa cấp của Joop Hox ra khỏi kệ sách của mình, đưa ra định nghĩa này:

Một vấn đề đa cấp liên quan đến một dân số có cấu trúc phân cấp.

Ngay cả trong một cuốn sách giáo khoa khá tốt, định nghĩa ban đầu dường như là hình tròn. Tôi nghĩ rằng điều này một phần là do sự chủ quan của việc xác định khi nào nên sử dụng loại mô hình nào (bao gồm cả mô hình đa cấp).

Một cuốn sách khác, Các mô hình hỗn hợp tuyến tính West, Welch, & Galecki cho biết những mô hình này là dành cho:

biến kết quả trong đó phần dư được phân phối bình thường nhưng có thể không độc lập hoặc có phương sai không đổi. Các thiết kế nghiên cứu dẫn đến các bộ dữ liệu có thể được phân tích phù hợp bằng LMM bao gồm (1) nghiên cứu với dữ liệu được nhóm lại, chẳng hạn như học sinh trong lớp học, hoặc thiết kế thử nghiệm với các khối ngẫu nhiên, chẳng hạn như các lô nguyên liệu thô cho quy trình công nghiệp và (2) nghiên cứu theo chiều dọc hoặc lặp đi lặp lại, trong đó các đối tượng được đo lặp đi lặp lại theo thời gian hoặc trong các điều kiện khác nhau.

Mô hình đa cấp của Finch, Bolin, & Kelley trong R cũng nói về việc vi phạm giả định iid và phần dư tương quan:

Đặc biệt quan trọng trong bối cảnh mô hình đa cấp là giả định [trong hồi quy chuẩn] của các thuật ngữ lỗi phân tán độc lập cho các quan sát riêng lẻ trong một mẫu. Giả định này về cơ bản có nghĩa là không có mối quan hệ giữa các cá nhân trong mẫu cho biến phụ thuộc một khi các biến độc lập trong phân tích được tính đến.

Tôi tin rằng một mô hình đa cấp có ý nghĩa khi có lý do để tin rằng các quan sát không nhất thiết phải độc lập với nhau. Bất cứ "cụm" nào cho sự không độc lập này đều có thể được mô hình hóa.

Một ví dụ rõ ràng là trẻ em trong lớp học, tất cả chúng đều tương tác với nhau, điều này có thể khiến điểm kiểm tra của chúng không độc lập. Điều gì xảy ra nếu một lớp học có người hỏi một câu hỏi dẫn đến tài liệu được bao phủ trong lớp đó không được bao phủ trong các lớp khác? Điều gì sẽ xảy ra nếu giáo viên tỉnh táo hơn đối với một số lớp học so với những người khác? Trong trường hợp này, sẽ có một số dữ liệu không độc lập; trong các từ đa cấp, chúng ta có thể mong đợi một số phương sai trong biến phụ thuộc là do cụm (tức là lớp).

Ví dụ của bạn về một con chó so với một con voi phụ thuộc vào các biến quan tâm độc lập và phụ thuộc, tôi nghĩ vậy. Ví dụ: giả sử chúng tôi đang hỏi liệu có ảnh hưởng của caffeine đến mức độ hoạt động không. Động vật từ khắp nơi trong sở thú được chỉ định ngẫu nhiên để có được một thức uống chứa caffein hoặc đồ uống kiểm soát.

Nếu chúng tôi là một nhà nghiên cứu quan tâm đến caffeine, chúng tôi có thể chỉ định một mô hình đa cấp độ, bởi vì chúng tôi thực sự quan tâm đến tác dụng của caffeine. Mô hình này sẽ được chỉ định là:

activity ~ condition + (1+condition|species)

Điều này đặc biệt hữu ích nếu có một số lượng lớn các loài chúng tôi đang thử nghiệm giả thuyết này. Tuy nhiên, một nhà nghiên cứu có thể quan tâm đến tác dụng đặc trưng của loài caffeine. Trong trường hợp đó, họ có thể chỉ định các loài là một hiệu ứng cố định:

activity ~ condition + species + condition*species

Đây rõ ràng là một vấn đề nếu có, giả sử, 30 loài, tạo ra một thiết kế 2 x 30 khó sử dụng. Tuy nhiên, bạn có thể trở nên khá sáng tạo với cách mô hình hóa các mối quan hệ này.

Ví dụ, một số nhà nghiên cứu đang tranh luận về việc sử dụng mô hình đa cấp thậm chí còn rộng hơn. Gelman, Hill, & Yajima (2012) cho rằng mô hình đa cấp có thể được sử dụng như một sự điều chỉnh cho nhiều so sánh ngay cả trong nghiên cứu thử nghiệm trong đó cấu trúc của dữ liệu không rõ ràng là phân cấp:

Các vấn đề khó hơn phát sinh khi mô hình hóa nhiều so sánh có cấu trúc nhiều hơn. Ví dụ: giả sử chúng ta có năm biện pháp kết quả, ba loại phương pháp điều trị và phân nhóm được phân loại theo hai giới tính và bốn nhóm chủng tộc. Chúng tôi không muốn mô hình cấu trúc 2 × 3 × 4 × 5 này thành 120 nhóm có thể trao đổi. Ngay cả trong những tình huống phức tạp hơn này, chúng tôi nghĩ rằng mô hình đa cấp nên và cuối cùng sẽ thay thế các thủ tục so sánh cổ điển.

Các vấn đề có thể được mô hình hóa theo nhiều cách khác nhau và trong các trường hợp mơ hồ, nhiều cách tiếp cận có vẻ hấp dẫn. Tôi nghĩ rằng công việc của chúng tôi là chọn một cách tiếp cận hợp lý, có hiểu biết và làm như vậy một cách minh bạch.


5

Tất nhiên bạn có thể xây dựng một mô hình cho mỗi nhóm khác nhau, không có gì sai với điều đó. Tuy nhiên, bạn cần kích thước mẫu lớn hơn và cần quản lý nhiều mô hình.

Bằng cách sử dụng mô hình hỗn hợp, bạn gộp (và chia sẻ) dữ liệu lại với nhau và do đó yêu cầu kích thước mẫu nhỏ hơn.

Khi làm như vậy, chúng tôi đang chia sẻ sức mạnh thống kê. Ý tưởng ở đây là một cái gì đó chúng ta có thể suy luận tốt trong một nhóm dữ liệu có thể giúp chúng ta với thứ gì đó mà chúng ta không thể suy luận tốt trong một nhóm khác.

Các mô hình hỗn hợp cũng ngăn chặn các nhóm được lấy mẫu quá mức khỏi sự suy diễn không công bằng.

Quan điểm của tôi là nếu bạn muốn mô hình hóa cấu trúc phân cấp bên dưới, bạn nên thêm các hiệu ứng ngẫu nhiên vào mô hình của mình. Mặt khác, nếu bạn không quan tâm đến mô hình của bạn, bạn không sử dụng nó.

https://www.dropbox.com/s/rzi2rsou6h817zz/Datascience%20Pftimeation.pdf?dl=0

đưa ra thảo luận có liên quan. Tác giả đã thảo luận lý do tại sao ông không muốn chạy các mô hình hồi quy riêng.

nhập mô tả hình ảnh ở đây


4

Trong các mô hình hiệu ứng hỗn hợp, bạn thêm các thuật ngữ ngẫu nhiên (lỗi) vào mô hình của mình, để bạn "trộn" các hiệu ứng cố định và ngẫu nhiên. Vì vậy, một cách tiếp cận khác để xem xét khi nào nên sử dụng các mô hình hiệu ứng hỗn hợp, có thể là xem xét "hiệu ứng ngẫu nhiên" là gì. Do đó, ngoài các câu trả lời được đưa ra trước đó, tôi cũng tìm thấy sự khác biệt giữa các thuật ngữ "cố định" và "ngẫu nhiên" từ hướng dẫn của Bates (2010) , phần 1.1 (đặc biệt trang 2).

Các tham số liên quan đến các cấp độ cụ thể của hiệp phương đôi khi được gọi là các hiệu ứng trên mạng của các cấp. Nếu tập hợp các mức có thể của hiệp phương sai là cố định và có thể lặp lại, chúng ta mô hình hóa hiệp phương sai bằng các tham số hiệu ứng cố định. Nếu các mức mà chúng tôi quan sát được đại diện cho một mẫu ngẫu nhiên từ tập hợp tất cả các mức có thể, chúng tôi sẽ kết hợp các hiệu ứng ngẫu nhiên trong mô hình. Có hai điều cần chú ý về sự khác biệt này giữa các tham số hiệu ứng cố định và hiệu ứng ngẫu nhiên. Đầu tiên, các tên là sai lệch vì sự khác biệt giữa cố định và ngẫu nhiên là một thuộc tính của các cấp độ phân loại hơn là một thuộc tính của các hiệu ứng liên quan đến chúng.

Định nghĩa này thường áp dụng cho một số cấu trúc chữ tượng hình như các quốc gia hoặc lớp học, bởi vì bạn luôn có một mẫu "ngẫu nhiên" của các quốc gia hoặc lớp học - dữ liệu chưa được thu thập từ tất cả các quốc gia hoặc lớp học có thể.

Tuy nhiên, tình dục là cố định (hoặc ít nhất được coi là cố định). Nếu bạn có nam hay nữ, không còn giới tính nào khác (có thể có một số ngoại lệ về giới tính, nhưng điều này chủ yếu bị bỏ qua).

Hoặc nói cấp độ giáo dục: Nếu bạn hỏi liệu mọi người có trình độ học vấn thấp hơn, trung bình hoặc cao hơn, không còn cấp độ nào, vì vậy bạn đã không lấy mẫu "ngẫu nhiên" của tất cả các cấp giáo dục có thể (do đó, đây là hiệu ứng cố định).


2
+1 Tại sao bỏ phiếu xuống? Nó được trích dẫn từ một nhà thống kê được kính trọng về mô hình hiệu ứng ngẫu nhiên; phần bình luận sau đây khá đơn giản và được xác định rõ ràng ...
usεr11852

3

Bạn sử dụng các mô hình hỗn hợp khi một số giả định hợp lý có thể được thực hiện, dựa trên thiết kế nghiên cứu, về bản chất của mối tương quan giữa các quan sát suy luận được mong muốn ở cấp độ cá nhân hoặc hiệu ứng có điều kiện . Các mô hình hỗn hợp cho phép thông số kỹ thuật của các hiệu ứng ngẫu nhiên, là sự thể hiện thuận tiện của các cấu trúc tương quan phát sinh tự nhiên trong việc thu thập dữ liệu.

Loại mô hình hỗn hợp phổ biến nhất là mô hình chặn ngẫu nhiên ước tính phân phối tiềm ẩn của các hằng số chung có phân phối chuẩn phương sai hữu hạn trung bình 0 trong các cụm của các cá nhân được xác định trong tập dữ liệu. Cách tiếp cận này chiếm hàng trăm yếu tố gây nhiễu phổ biến đối với các nhóm quan sát hoặc cụm, nhưng khác nhau giữa các cụm.

Loại mô hình hỗn hợp phổ biến thứ hai là mô hình độ dốc ngẫu nhiên, gần giống với mô hình chặn ngẫu nhiên, ước tính phân phối tiềm ẩn của các tương tác dự đoán thời gian một lần nữa xuất phát từ phân phối bình thường phương sai hữu hạn 0 trong một nghiên cứu bảng hoặc cụm các quan sát được đo lường theo triển vọng hoặc theo chiều dọc.

Các kết quả này gần giống với kết quả thu được từ việc sử dụng bình phương tối thiểu tổng quát và thuật toán EM để ước lượng các tham số mô hình lặp và hiệp phương sai giữa các quan sát phụ thuộc này (hay chính xác hơn là phần dư của chúng). Bình phương tối thiểu có trọng số hiệu quả hơn bình phương tối thiểu khi hiệp phương sai giữa các quan sát được biết đến. Mặc dù hiệp phương sai hiếm khi được biết đến, nó có thể được giả định để có một cấu trúc cụ thể và được ước tính lặp đi lặp lại. Mô hình chặn ngẫu nhiên đưa ra suy luận và khả năng tương tự với bình phương tối thiểu có trọng số có cấu trúc tương quan có thể trao đổi trong đó nếuY 1 , Y 2 c o r ( Y t , Y s ) = ρ | t - s | Y t , Y s t , scor(Y1,Y2)=ρY1,Y2nằm trong cùng một cụm và 0 khác. Mô hình độ dốc ngẫu nhiên đưa ra suy luận và khả năng tương tự với bình phương tối thiểu có trọng số có cấu trúc tương quan tự động 1 trong đó nếu là các quan sát trên cùng một mẫu tại các thời điểm khác nhau và 0 nếu không. Các kết quả không giống nhau, bởi vì các lực lượng đánh chặn ngẫu nhiên quan sát trong các cụm được liên kết tích cực gần như luôn luôn là một giả định hợp lý.cor(Yt,Ys)=ρ|ts|Yt,Yst,s

Mức độ cá nhân hoặc hiệu ứng có điều kiện có thể tương phản với mức độ dân số hoặc hiệu ứng cận biên. Hiệu ứng cận biên thể hiện hiệu ứng trong dân số từ can thiệp hoặc sàng lọc. Ví dụ, một can thiệp để tăng sự tuân thủ trong phục hồi lạm dụng chất có thể xem xét tham dự hơn 3 tháng trong một nhóm bệnh nhân được nhận trong các điều kiện khác nhau. Thời gian sử dụng có thể khác nhau giữa các bệnh nhân và dự đoán mạnh mẽ việc tuân thủ hội thảo với những người tham gia sử dụng lâu hơn có xu hướng gây nghiện và tránh xa hơn. Một phân tích cấp độ cá nhân có thể tiết lộ rằng nghiên cứu này có hiệu quả mặc dù thực tế là những người tham gia nghiện lâu hơn không tham dự trước khi nhận được can thiệp và tiếp tục không tham dự sau khi nhận được can thiệp.

Hiệu ứng cận biên có suy luận ít chính xác hơn do bỏ qua tính đồng nhất giữa các cụm trong thời gian hoặc không gian. Chúng có thể được ước tính với các phương trình ước lượng tổng quát hoặc bằng cách làm cho các mô hình hỗn hợp.


2
+1, tôi ước tôi có thể chấp nhận 2 câu trả lời!. bình luận của tôi cho câu trả lời của @ Mark cũng áp dụng cho câu trả lời của bạn. rằng bạn đã giúp tôi hiểu cách chúng tôi định nghĩa "quan sát theo cụm"
Haitao Du

2
@ hxd1011 Nó hoàn toàn xuất phát từ một tuyên bố về thiết kế nghiên cứu. Bất kỳ thiết kế nào với các mẫu phân tầng hoặc các biện pháp lặp lại sẽ có dữ liệu không độc lập. Đây không phải là một trường hợp để kiểm tra thống kê. Báo cáo hoặc ít nhất là kiểm tra các hiệu ứng ngẫu nhiên có thể giúp hiểu được mức độ tương quan, ICC là một ví dụ về biện pháp như vậy.
AdamO

0

Hiệu ứng hỗn hợp nên được sử dụng khi dữ liệu có cấu trúc lồng nhau hoặc phân cấp. Điều này thực sự vi phạm giả định về tính độc lập của các phép đo, bởi vì tất cả các phép đo trong cùng một nhóm / cấp độ đều có mối tương quan với nhau. Trong trường hợp

"Nếu các nhóm / loài khác nhau thực sự giống nhau. Nói một con chó cái và một con chó đực. Tôi nghĩ rằng chúng ta có thể muốn sử dụng giới tính như một biến phân loại trong mô hình."

giới tính sẽ là biến nhân tố và hiệu ứng cố định, trong khi đó sự thay đổi kích thước chó trong giới là hiệu ứng ngẫu nhiên. Mô hình của tôi sẽ là

response ~ sex + (1|size), data=data

Theo trực giác, bệnh dại, chó và chuồng nên được mô hình riêng biệt vì kích thước của chó và mèo không tương quan với nhau, tuy nhiên kích thước của hai con chó là một loại biến đổi "bên trong loài".


Cá nhân tôi nghĩ rằng thuật ngữ "cấu trúc lồng nhau hoặc phân cấp" quá chung chung và tìm thời gian khó để xác định ranh giới.
Haitao Du

Có lẽ bạn là đúng. Tôi đoán sau đó LMM được sử dụng khi giả định IID bị vi phạm do một số loại nhóm có trong dữ liệu.
marianess
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.