Kiểm tra ý nghĩa hệ số trong hồi quy logistic Lasso


10

[Một câu hỏi tương tự đã được hỏi ở đây mà không có câu trả lời]

Tôi đã phù hợp với mô hình hồi quy logistic với chính quy L1 (hồi quy logistic Lasso) và tôi muốn kiểm tra các hệ số phù hợp cho mức độ quan trọng và nhận giá trị p của chúng. Tôi biết các bài kiểm tra của Wald (ví dụ) là một tùy chọn để kiểm tra tầm quan trọng của các hệ số riêng lẻ trong hồi quy hoàn toàn mà không cần chính quy, nhưng với Lasso tôi nghĩ rằng có nhiều vấn đề phát sinh không cho phép áp dụng các công thức Wald thông thường. Ví dụ, các ước tính phương sai được neded cho thử nghiệm không tuân theo các biểu thức thông thường. Giấy Lasso gốc

http://statweb.stanford.edu/~tibs/lasso/lasso.pdf

đề xuất một quy trình dựa trên bootstrap để ước tính phương sai hệ số, mà (một lần nữa, tôi nghĩ) có thể cần thiết cho các thử nghiệm (phần 2.5, đoạn cuối của trang 272 và đầu trang 273):

Một cách tiếp cận là thông qua bootstrap: hoặc có thể được sửa hoặc chúng tôi có thể tối ưu hóa hơn cho mỗi mẫu bootstrap. Khắc phục tương tự như chọn tập hợp con tốt nhất ( tính năng ) và sau đó sử dụng lỗi tiêu chuẩn bình phương nhỏ nhất cho tập hợp con đóttt

Điều tôi hiểu là: liên tục hồi quy Lasso cho toàn bộ tập dữ liệu cho đến khi chúng tôi tìm thấy giá trị tối ưu cho tham số chính quy (đây không phải là một phần của bootstrap), và sau đó chỉ sử dụng các tính năng được Lasso chọn để điều chỉnh hồi quy OLS cho các mẫu con của dữ liệu và áp dụng các công thức thông thường để tính toán phương sai từ mỗi hồi quy đó. (Và sau đó tôi nên làm gì với tất cả các phương sai của từng hệ số để có được ước tính phương sai cuối cùng của từng hệ số?)

Hơn nữa, có đúng không khi sử dụng các thử nghiệm có ý nghĩa thông thường (ví dụ: thử nghiệm của Wald sử dụng các betas và phương sai ước tính) với các ước tính của Lasso về các hệ số và phương sai ước tính của bootstrap? Tôi khá chắc chắn là không, nhưng bất kỳ trợ giúp nào (sử dụng một thử nghiệm khác, sử dụng một cách tiếp cận đơn giản hơn, bất cứ điều gì ...) đều được chào đón nhiều hơn.

Theo các câu trả lời ở đây, tôi nghi ngờ suy luận và giá trị p không thể có được. Trong trường hợp của tôi, giá trị p là một yêu cầu bên ngoài (mặc dù việc sử dụng chính quy L1 là lựa chọn của tôi).

Cảm ơn rất nhiều

EDIT Điều gì xảy ra nếu tôi phù hợp với hồi quy logistic OLS chỉ sử dụng các biến được chọn bởi lần chạy trước đó của hồi quy logistic Lasso? Rõ ràng (xem ở đây ),

Không cần phải chạy lại mô hình sau khi thực hiện xác thực chéo (bạn chỉ cần lấy các hệ số từ đầu ra của cv.glmnet), và trên thực tế nếu bạn phù hợp với mô hình hồi quy logistic mới mà không bị phạt thì bạn sẽ đánh bại mục đích sử dụng dây cột ngựa

Nhưng điều gì sẽ xảy ra nếu tôi làm điều này với mục đích duy nhất là có thể tính toán giá trị p trong khi vẫn giữ số lượng biến thấp? Đó có phải là một cách tiếp cận rất bẩn? :-)


Để suy luận về các mô hình LASSO, bạn cũng có thể kiểm tra gói CRAN hdi cung cấp suy luận cho các mô hình chiều cao, bạn có thể muốn xem xét điều đó ...
Tom Wenseleers

Các phương pháp đầy đủ được mô tả kỹ trong bài viết này: projecteuclid.org/euclid.ss/1449670857
Tom Wenseleers

Và cũng có gói cran.r-project.org/web/packages/selectiveInference/index.html có thể hữu ích để cung cấp suy luận cho LASSO ...
Tom Wenseleers

Đây là một câu hỏi hay và quan trọng để hỏi.
Kim Hoa Wang

Câu trả lời:


5

Vấn đề với việc sử dụng các bài kiểm tra ý nghĩa thông thường, là họ giả sử null là có các biến ngẫu nhiên, không có mối quan hệ với các biến kết quả. Tuy nhiên, những gì bạn có với lasso, là một loạt các biến ngẫu nhiên, từ đó bạn chọn những biến tốt nhất với Lasso, cũng là các betas bị thu hẹp. Vì vậy, bạn không thể sử dụng nó, kết quả sẽ được thiên vị.

Theo tôi biết, bootstrap không được sử dụng để lấy ước lượng phương sai, nhưng để có được xác suất của một biến được chọn. Và đó là những giá trị p của bạn. Kiểm tra cuốn sách miễn phí của Hasie, Học thống kê với độ thưa thớt, chương 6 đang nói về điều tương tự. http://web.stanford.edu/~hastie/StatLearnSparsity/

Ngoài ra, hãy kiểm tra bài viết này để biết một số cách khác để nhận giá trị p từ lasso https://arxiv.org/pdf/1408.4026.pdf Có thể có nhiều hơn


4

n

May mắn thay, đã có nhiều tiến bộ trong những năm gần đây trong việc phát triển các phương pháp suy luận chiếm phần sau lựa chọn. Một số tài liệu tham khảo có liên quan cho trường hợp của bạn là: http://projecteuclid.org/euclid.aos/1460381681 và, https://arxiv.org/pdf/1602.07353.pdf . Các kỹ thuật được thảo luận trong các tham chiếu này được triển khai trong gói R selectiveInference- https://cran.r-project.org/web/packages/selectiveInference/index.html . Gói selectiveInference sẽ tạo ra các khoảng tin cậy hợp lệ mà bạn cần.


1
Trong chuyên ngành học máy trong Coursera của Univ. Washington, các giáo viên của khóa 2 (Hồi quy) đã dành cả tuần để hồi quy Lasso. Trong một trong các slide, quy trình tôi đã mô tả (sử dụng Lasso để chọn các tính năng và sau đó điều chỉnh hồi quy LS chỉ với các biến đó) được quy định là khử nhiễu và được coi là chính xác và được minh họa bằng các biểu đồ từ một bài báo của Mario Figueiredo. Kiểm tra slide 105 tại đây: github.com/MaxPoon/coursera-Machine-Learning-specialization/
Pablo

Mặc dù họ đề nghị gỡ lỗi cho Lasso, nhưng họ không thảo luận về thử nghiệm giả thuyết nào cả. Ngoài ra, thuật ngữ khử xu hướng là sai lệch, bởi vì trong khi cải tiến mô hình sẽ thoát khỏi sự thiên vị đi xuống do Lasso gây ra, nó không giúp ích gì cho sự thiên vị đi lên do lời nguyền của người chiến thắng. Theo tôi biết, cách duy nhất để thực sự khử các ước tính hệ số hồi quy của mô hình được chọn là tính toán các ước tính khả năng tối đa có điều kiện. arxiv.org/abs/1705.09417
user3903581 24/07/17
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.