Mô hình hỗn hợp tuyến tính tổng quát: lựa chọn mô hình


10

Câu hỏi / chủ đề này xuất hiện trong một cuộc thảo luận với một đồng nghiệp và tôi đang tìm kiếm một số ý kiến ​​về điều này:

Tôi đang mô hình hóa một số dữ liệu bằng cách sử dụng hồi quy logistic hiệu ứng ngẫu nhiên, chính xác hơn là hồi quy logistic chặn ngẫu nhiên. Đối với các hiệu ứng cố định, tôi có 9 biến được quan tâm và xem xét. Tôi muốn thực hiện một số loại lựa chọn mô hình để tìm ra các biến có ý nghĩa và đưa ra mô hình tốt nhất của 271 (chỉ các hiệu ứng chính).

Ý tưởng đầu tiên của tôi là sử dụng AIC để so sánh các mô hình khác nhau nhưng với 9 biến tôi không quá hứng thú để so sánh 2 ^ 9 = 512 mô hình khác nhau (từ khóa: nạo vét dữ liệu).

Tôi đã thảo luận điều này với một đồng nghiệp và anh ấy nói với tôi rằng anh ấy nhớ đọc về việc sử dụng lựa chọn mô hình từng bước (hoặc chuyển tiếp) với GLMM. Nhưng thay vì sử dụng giá trị p (ví dụ: dựa trên kiểm tra tỷ lệ khả năng cho GLMM), người ta nên sử dụng AIC làm tiêu chí xuất / nhập.

Tôi thấy ý tưởng này rất thú vị, nhưng tôi không tìm thấy bất kỳ tài liệu tham khảo nào thảo luận thêm về điều này và đồng nghiệp của tôi không nhớ anh ta đã đọc nó ở đâu. Nhiều cuốn sách đề nghị sử dụng AIC để so sánh các mô hình nhưng tôi không tìm thấy bất kỳ cuộc thảo luận nào về việc sử dụng mô hình này cùng với quy trình lựa chọn mô hình từng bước hoặc chuyển tiếp.

Vì vậy, về cơ bản tôi có hai câu hỏi:

  1. Có điều gì sai khi sử dụng AIC trong quy trình lựa chọn mô hình từng bước làm tiêu chí xuất / nhập không? Nếu có, cái gì sẽ thay thế?

  2. Bạn có một số tài liệu tham khảo thảo luận về quy trình trên mà (cũng như tài liệu tham khảo cho một báo cáo cuối cùng?

Tốt,

Emilia


3
Lựa chọn mô hình từng bước là nạo vét dữ liệu nhiều như lựa chọn tập hợp con đầy đủ (nó thực sự cố gắng tìm gần đúng cùng một giải pháp trong thời gian ngắn hơn nhiều). Lựa chọn dựa trên AIC là nạo vét dữ liệu.
Michael M

Câu trả lời:


7

Lựa chọn từng bước là sai trong các mô hình đa cấp vì các lý do tương tự sai trong hồi quy "thông thường": Các giá trị p sẽ quá thấp, các lỗi tiêu chuẩn quá nhỏ, các ước tính tham số sai lệch từ 0, v.v. Quan trọng nhất, nó phủ nhận bạn cơ hội để suy nghĩ.

9 IV không quá nhiều. Tại sao bạn chọn 9? Chắc chắn bạn đã có một lý do.

Một điều ban đầu cần làm là xem xét rất nhiều mảnh đất; những cái chính xác nào phụ thuộc một chút vào việc dữ liệu của bạn có theo chiều dọc (trong trường hợp đó, các ô có thời gian trên trục x thường hữu ích) hoặc được phân cụm. Nhưng chắc chắn nhìn vào mối quan hệ giữa 9 IV và DV của bạn (các ô vuông song song là một khả năng đơn giản).

Lý tưởng sẽ là xây dựng một vài mô hình dựa trên ý nghĩa thực chất và so sánh chúng bằng AIC, BIC hoặc một số biện pháp khác. Nhưng đừng ngạc nhiên nếu không có mô hình cụ thể nào xuất hiện rõ ràng nhất. Bạn không nói bạn làm việc trong lĩnh vực nào, nhưng trong nhiều lĩnh vực (hầu hết?), Bản chất rất phức tạp. Một số mô hình có thể phù hợp tốt như nhau và một mô hình khác có thể phù hợp hơn trên một tập dữ liệu khác nhau (ngay cả khi cả hai đều là các mẫu ngẫu nhiên từ cùng một quần thể).

Đối với tài liệu tham khảo - có rất nhiều cuốn sách hay về các mô hình hỗn hợp phi tuyến. Cái nào là tốt nhất cho bạn phụ thuộc vào a) Bạn đang ở lĩnh vực nào b) Bản chất của dữ liệu là gì c) Bạn sử dụng phần mềm nào.

Trả lời bình luận của bạn

  1. Nếu tất cả 9 biến đều quan trọng về mặt khoa học, ít nhất tôi sẽ xem xét bao gồm tất cả chúng. Nếu một biến mà mọi người nghĩ là quan trọng sẽ có ảnh hưởng nhỏ, thì điều đó thật thú vị.

  2. Chắc chắn âm mưu tất cả các biến của bạn theo thời gian và theo nhiều cách khác nhau.

  3. Đối với các vấn đề chung về các mô hình đa cấp theo chiều dọc, tôi thích Hedeker và Gibbons ; đối với các mô hình dọc phi tuyến trong SAS tôi thích Molenberghs và Verbeke . Bản thân tài liệu SAS (for PROC GLIMMIX) cũng cung cấp hướng dẫn.


Trong nghiên cứu này, các đối tượng được tiếp xúc với các kết hợp thuốc và thuốc khác nhau theo thời gian và kết quả quan tâm là sự hiện diện của một tình trạng hô hấp nhất định (có / không). Bệnh nhân được đo liên tục cứ sau 2 tuần trong vòng 6 tháng. Về phần mềm, tôi sử dụng SAS và R. 9 IV trong đó được điều tra viên lựa chọn do tầm quan trọng khoa học của họ.
Emilia

Kiểm tra dữ liệu cũng tệ như vậy, nếu không nói là tệ hơn so với sử dụng lựa chọn mô hình thuật toán. Lý do là, lựa chọn mô hình thuật toán được hiểu rõ và có thể được điều chỉnh cho; nhìn vào dữ liệu và sử dụng phán đoán chủ quan là một quá trình không thể được nhân rộng hoặc điều chỉnh. Trong mọi trường hợp, tôi sẽ tránh thực hiện lựa chọn mô hình vì lựa chọn mô hình làm mất hiệu lực suy luận. Vì chỉ có 9 đồng biến ở đây, tôi nghĩ rằng lời khuyên tốt nhất là làm việc với mô hình đầy đủ hoặc với một mô hình được chọn chỉ dựa trên chất.
dùng3903581

3

Lựa chọn mô hình tốt hơn có thể được thực hiện bằng các phương pháp thu nhỏ như LASSO. Phương pháp từng bước là quá tự do. Một lời biện minh có thể được tìm thấy trong trang web của Tibshirani. Nếu bạn đang sử dụng R thì có một gói được gọi là glmmLassocho phép lựa chọn mô hình trong các mô hình hiệu ứng hỗn hợp tuyến tính tổng quát bằng phương pháp thu nhỏ LASSO.


1

Một tài liệu tham khảo tốt cho lựa chọn mô hình hỗn hợp dựa trên AIC trong R (cũng tốt cho người giả) sẽ là Zuur_2009_Mixed_Effect_Models_and_Extensions_in_Ecology_with_R,

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.