[Một câu hỏi tương tự đã được hỏi ở đây mà không có câu trả lời]
Tôi đã phù hợp với mô hình hồi quy logistic với chính quy L1 (hồi quy logistic Lasso) và tôi muốn kiểm tra các hệ số phù hợp cho mức độ quan trọng và nhận giá trị p của chúng. Tôi biết các bài kiểm tra của Wald (ví dụ) là một tùy chọn để kiểm tra tầm quan trọng của các hệ số riêng lẻ trong hồi quy hoàn toàn mà không cần chính quy, nhưng với Lasso tôi nghĩ rằng có nhiều vấn đề phát sinh không cho phép áp dụng các công thức Wald thông thường. Ví dụ, các ước tính phương sai được neded cho thử nghiệm không tuân theo các biểu thức thông thường. Giấy Lasso gốc
http://statweb.stanford.edu/~tibs/lasso/lasso.pdf
đề xuất một quy trình dựa trên bootstrap để ước tính phương sai hệ số, mà (một lần nữa, tôi nghĩ) có thể cần thiết cho các thử nghiệm (phần 2.5, đoạn cuối của trang 272 và đầu trang 273):
Một cách tiếp cận là thông qua bootstrap: hoặc có thể được sửa hoặc chúng tôi có thể tối ưu hóa hơn cho mỗi mẫu bootstrap. Khắc phục tương tự như chọn tập hợp con tốt nhất ( tính năng ) và sau đó sử dụng lỗi tiêu chuẩn bình phương nhỏ nhất cho tập hợp con đó
Điều tôi hiểu là: liên tục hồi quy Lasso cho toàn bộ tập dữ liệu cho đến khi chúng tôi tìm thấy giá trị tối ưu cho tham số chính quy (đây không phải là một phần của bootstrap), và sau đó chỉ sử dụng các tính năng được Lasso chọn để điều chỉnh hồi quy OLS cho các mẫu con của dữ liệu và áp dụng các công thức thông thường để tính toán phương sai từ mỗi hồi quy đó. (Và sau đó tôi nên làm gì với tất cả các phương sai của từng hệ số để có được ước tính phương sai cuối cùng của từng hệ số?)
Hơn nữa, có đúng không khi sử dụng các thử nghiệm có ý nghĩa thông thường (ví dụ: thử nghiệm của Wald sử dụng các betas và phương sai ước tính) với các ước tính của Lasso về các hệ số và phương sai ước tính của bootstrap? Tôi khá chắc chắn là không, nhưng bất kỳ trợ giúp nào (sử dụng một thử nghiệm khác, sử dụng một cách tiếp cận đơn giản hơn, bất cứ điều gì ...) đều được chào đón nhiều hơn.
Theo các câu trả lời ở đây, tôi nghi ngờ suy luận và giá trị p không thể có được. Trong trường hợp của tôi, giá trị p là một yêu cầu bên ngoài (mặc dù việc sử dụng chính quy L1 là lựa chọn của tôi).
Cảm ơn rất nhiều
EDIT Điều gì xảy ra nếu tôi phù hợp với hồi quy logistic OLS chỉ sử dụng các biến được chọn bởi lần chạy trước đó của hồi quy logistic Lasso? Rõ ràng (xem ở đây ),
Không cần phải chạy lại mô hình sau khi thực hiện xác thực chéo (bạn chỉ cần lấy các hệ số từ đầu ra của cv.glmnet), và trên thực tế nếu bạn phù hợp với mô hình hồi quy logistic mới mà không bị phạt thì bạn sẽ đánh bại mục đích sử dụng dây cột ngựa
Nhưng điều gì sẽ xảy ra nếu tôi làm điều này với mục đích duy nhất là có thể tính toán giá trị p trong khi vẫn giữ số lượng biến thấp? Đó có phải là một cách tiếp cận rất bẩn? :-)