Nhiều mô hình và lựa chọn mô hình


21

Đa mục tiêu khá đơn giản khi bạn có một mô hình tuyến tính tiên nghiệm mà bạn muốn ước tính. Tuy nhiên, mọi thứ dường như phức tạp hơn một chút khi bạn thực sự muốn thực hiện một số lựa chọn mô hình (ví dụ: tìm tập hợp các biến dự đoán "tốt nhất" từ một tập hợp các biến số ứng cử viên lớn hơn - tôi nghĩ cụ thể về LASSO và đa thức phân số sử dụng R).

Một ý tưởng sẽ phù hợp với mô hình trong dữ liệu gốc với các giá trị bị thiếu và sau đó ước tính lại mô hình này trong bộ dữ liệu MI và kết hợp các ước tính như bạn thường làm. Tuy nhiên, điều này có vẻ có vấn đề vì bạn đang mong đợi sự thiên vị (hoặc nếu không thì tại sao MI lại ở vị trí đầu tiên?), Điều này có thể dẫn đến việc chọn một mô hình "sai" ngay từ đầu.

Một ý tưởng khác là trải qua bất kỳ quy trình lựa chọn mô hình nào bạn đang sử dụng trong mỗi tập dữ liệu MI - nhưng sau đó bạn sẽ kết hợp các kết quả như thế nào nếu chúng bao gồm các bộ biến khác nhau?

Tôi nghĩ rằng tôi đã xếp chồng một bộ dữ liệu MI và phân tích chúng thành một bộ dữ liệu lớn mà sau đó bạn sẽ sử dụng để phù hợp với một mô hình "tốt nhất" và bao gồm một hiệu ứng ngẫu nhiên để giải thích cho thực tế bạn đang sử dụng các biện pháp lặp đi lặp lại cho từng quan sát.

Điều này nghe có vẻ hợp lý? Hay có lẽ vô cùng ngây thơ? Bất kỳ con trỏ nào về vấn đề này (lựa chọn mô hình với nhiều lần cắt) sẽ được đánh giá rất cao.


2
Vui lòng chỉnh sửa bài đăng này để thay đổi "mô hình phù hợp" thành "lựa chọn mô hình". Nó cũng sẽ hữu ích để thảo luận về phương pháp bạn đang sử dụng. Chẳng hạn, nếu lựa chọn mô hình từng bước dựa trên giá trị p được sử dụng, thì việc xếp chồng dữ liệu bị cấm hoàn toàn KHÔNG được phép. Bạn có thể vẽ các mẫu bootstrap của dữ liệu của mình, bao gồm dữ liệu bị thiếu áp dụng MI và quy trình chọn mô hình tiếp theo và tính toán "giá trị p" chính xác cho mô hình đã chọn.
AdamO

Trong đoạn thứ hai của bạn, tại sao bạn nghĩ rằng phương pháp đó bỏ lỡ điểm của nhiều lần cắt bỏ? Ngoài ra, bạn đang sử dụng phần mềm nào?
Peter Flom - Tái lập Monica

Câu trả lời:


10

Có rất nhiều điều bạn có thể làm để chọn các biến từ dữ liệu được nhân lên, nhưng không phải tất cả đều mang lại ước tính phù hợp. Xem Wood Med al (2008) Stat Med để so sánh các khả năng khác nhau.

Tôi đã tìm thấy quy trình hai bước sau đây hữu ích trong thực tế.

  1. mmm
  2. m

Bước 1 lựa chọn trước được đưa vào để giảm số lượng tính toán. Xem http://www.stefvanbuuren.nl/mi/FIMDm vật liệu / src / fimd6.r.txt (phần 6.4.2) để biết ví dụ mã của phương pháp hai bước trong R sử dụng mice(). Trong Stata, bạn có thể thực hiện Bước 2 (trên tất cả các biến) với mim:stepwise.


Xin vui lòng, bao gồm các liên kết đến ấn phẩm Stat Med. Tôi cũng cố gắng làm đẹp câu trả lời của bạn.
StasK

1
Thói quen được đề xuất chỉ có thể có ý nghĩa khi bạn chọn từ một bộ hồi quy được chỉ định trước. Nhưng nếu tôi chọn nói một xu hướng bậc hai, B-splines 5 và 9 hải lý, và có thể là GIỎ HÀNG, tôi không chắc chắn làm thế nào để áp dụng đề xuất này.
StasK

Stas, thủ tục giả định rằng mô hình cắt cụt là chính xác. Cụ thể, phương pháp cắt bỏ phải nắm bắt đầy đủ tất cả các tính năng trong dữ liệu mà bạn có thể quan tâm sau này. Vì vậy, nếu bạn muốn đưa các thuật ngữ bậc hai hoặc B-splines vào phân tích dữ liệu hoàn chỉnh của mình, thì mô hình cắt bỏ phải được thiết lập sao cho các tính năng đó được bảo tồn trong dữ liệu được liệt kê (Lưu ý: điều này thực sự có thể khó đạt được , nhưng đó là một chủ đề của riêng mình). Cho rằng mô hình cắt cụt được chỉ định chính xác, tôi sẽ nói rằng quy trình lựa chọn hai bước được áp dụng.
Stef van Buuren

Chà, về cơ bản thì mô hình cắt cụt phải là mô hình giàu nhất có thể. Tôi đã gặp các tình huống khi điều đó không hoàn toàn diễn ra, như dự đoán hoàn hảo trong các mô hình logistic được tham số hóa quá mức.
StasK

Đã đồng ý. Bạn sẽ phải áp đặt theo mô hình phong phú nhất có thể. Vì vậy, trước tiên hãy xác định các phân tích phức tạp nhất mà bạn muốn thực hiện và điều chỉnh mô hình cắt cụt theo đó. Điều này có thể khó đạt được trong thực tế và trở nên khó khăn hơn khi độ phức tạp của mô hình dữ liệu hoàn chỉnh tăng lên. Không có bữa trưa miễn phí. Dự đoán hoàn hảo trong hồi quy logistic đã được giải quyết theo một số cách, và không cần phải trình bày một vấp ngã lớn.
Stef van Buuren

4

Điều này rất đơn giản: Bạn có thể áp dụng các quy tắc kết hợp MI tiêu chuẩn - nhưng tác động của các biến không được hỗ trợ trong các bộ dữ liệu được liệt kê sẽ ít rõ ràng hơn. Ví dụ: nếu một biến không được chọn trong một tập dữ liệu được liệt kê cụ thể thì ước tính của nó (bao gồm phương sai) bằng 0 và điều này phải được phản ánh trong các ước tính được sử dụng khi sử dụng nhiều mức độ. Bạn có thể xem xét bootstrapping để xây dựng các khoảng tin cậy để kết hợp tính không chắc chắn của lựa chọn mô hình, hãy xem ấn phẩm gần đây này giải quyết tất cả các câu hỏi: http://www.scTHERirect.com/science/article/pii/S016794731300073X

Tôi sẽ tránh sử dụng các cách tiếp cận thực tế như chọn một biến nếu nó được chọn trong bộ dữ liệu m / 2 hoặc sth tương tự, bởi vì suy luận không rõ ràng và phức tạp hơn so với cái nhìn đầu tiên.


3

Tôi đã có cùng một vấn đề.

Sự lựa chọn của tôi là cái gọi là "Lasso nhiều lần". Về cơ bản, nó kết hợp tất cả các bộ dữ liệu được liệt kê lại với nhau và áp dụng khái niệm nhóm lasso: mọi biến số ứng cử viên sẽ tạo ra m biến giả. Mỗi biến giả tương ứng với một tập dữ liệu được liệt kê.

Sau đó tất cả các biến giả m được nhóm lại. bạn có thể loại bỏ một biến ứng cử viên của m biến giả trong tất cả các bộ dữ liệu QUY GÁN hoặc giữ chúng trong tất cả các bộ dữ liệu QUY GÁN.

Vì vậy, hồi quy lasso thực sự phù hợp với tất cả các bộ dữ liệu được liệt kê chung.

Kiểm tra giấy :

Chen, Q. & Wang, S. (2013). "Lựa chọn biến cho dữ liệu đa nhân với ứng dụng vào nghiên cứu phơi nhiễm điôxin," Thống kê trong Y học, 32: 3646-59.

Và một chương trình R có liên quan


Tôi nghĩ rằng tôi thực sự đã gửi email cho bạn về điều này một vài năm trước đây :)
DL Dahly

1

Tôi đã phải đối mặt với một vấn đề tương tự - Tôi đã có một bộ dữ liệu mà ngay từ đầu tôi đã biết rằng tôi muốn bao gồm tất cả các biến (tôi quan tâm đến các hệ số hơn dự đoán), nhưng tôi không biết tiên nghiệm những gì tương tác nên được chỉ định.

Cách tiếp cận của tôi là viết ra một tập hợp các mô hình ứng cử viên, thực hiện nhiều lần cắt ngang, ước tính nhiều mô hình và chỉ cần lưu và lấy trung bình AIC từ mỗi mô hình. Đặc điểm kỹ thuật mô hình với mức trung bình thấp nhất của AIC đã được chọn.

Tôi đã nghĩ đến việc thêm một sự điều chỉnh trong đó tôi sẽ xử phạt phương sai giữa các lần tranh chấp trong AIC. Tuy nhiên, về sự phản ánh, điều này dường như vô nghĩa.

Cách tiếp cận có vẻ đủ đơn giản với tôi, nhưng tôi đã tự mình phát minh ra nó và tôi không phải là nhà thống kê nổi tiếng. Trước khi sử dụng nó, bạn có thể muốn đợi cho đến khi mọi người sửa tôi (sẽ được chào đón!) Hoặc đưa ra câu trả lời này.


Cảm ơn vi đa trả lơi. Thật không may, điều tôi thực sự quan tâm là sử dụng các phương pháp lựa chọn mô hình tự động / khám phá nhiều hơn mà không cho vay trước tiên để chọn một bộ mô hình ứng cử viên hợp lý.
DL Dahly
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.