Suy luận sau khi sử dụng Lasso để lựa chọn biến


17

Tôi đang sử dụng Lasso để lựa chọn tính năng trong cài đặt chiều tương đối thấp (n >> p). Sau khi lắp mô hình Lasso, tôi muốn sử dụng các hiệp phương sai với các hệ số khác 0 để phù hợp với mô hình không bị phạt. Tôi đang làm điều này bởi vì tôi muốn những ước tính không thiên vị mà Lasso không thể đưa ra cho tôi. Tôi cũng thích giá trị p và khoảng tin cậy cho ước tính không thiên vị.

Tôi gặp khó khăn khi tìm tài liệu về chủ đề này. Hầu hết các tài liệu tôi tìm thấy là về việc đặt khoảng tin cậy vào các ước tính của Lasso, chứ không phải là một mô hình được trang bị lại.

Từ những gì tôi đã đọc, chỉ cần chỉnh lại một mô hình bằng cách sử dụng toàn bộ tập dữ liệu sẽ dẫn đến các lỗi p-value / std nhỏ không hợp lý. Ngay bây giờ, tách mẫu (theo phong cách của Wasserman và Roeder (2014) hoặc Meinshausen và cộng sự (2009)) dường như là một cách hành động tốt, nhưng tôi đang tìm kiếm thêm gợi ý.

Có ai gặp phải vấn đề này? Nếu vậy, bạn có thể vui lòng cung cấp một số gợi ý.


Tôi không hiểu tại sao nó lại quan trọng nếu công cụ ước tính Lasso bị sai lệch miễn là khoảng tin cậy có (ít nhất là không có triệu chứng) phạm vi bảo hiểm chính xác. Đây có phải là lý do duy nhất khiến bạn muốn phù hợp với ước tính OLS về sự hỗ trợ được phục hồi bởi Lasso?
dùng795305

Có thể tôi đã hiểu sai những gì tôi đã đọc, nhưng không phải là phạm vi bảo hiểm không chính xác đề cập đến ước tính sai lệch, không phải là ước tính thưa thớt thực sự nhưng không thiên vị?
EliK

1
Tôi không chắc ý của bạn về ước tính "thực sự thưa thớt nhưng không thiên vị", nhưng nếu bạn biết ước tính của Lasso có khoảng tin cậy với phạm vi bảo hiểm không chính xác, thì không nên làm gì thêm. Bài báo vừa được Greenparker (+1) liên kết là một bài viết thực sự thú vị (và là bài gần đây nhất mà tôi biết về chủ đề này) thảo luận (một phần) về cách bạn có thể phát triển các khoảng tin cậy chính xác không có triệu chứng trên Lasso sau đó ols hệ số. Tôi đang cố gắng chỉ ra rằng bạn không cần phải phù hợp với OLS để có được các hệ số không thiên vị, vì tính không thiên vị không thành vấn đề.
user795305

Tôi nghĩ rằng tôi đã hiểu lầm. Phạm vi bảo hiểm không chính xác mà bạn đang đề cập liên quan đến tham số thực. Vì vậy, mặc dù Lasso đưa ra các hệ số sai lệch, chúng ta có thể xây dựng các khoảng tin cậy có độ bao phủ chính xác cho tham số thực không?
EliK

2
Vì bạn đã chọn một mô hình, bạn sẽ không có ước tính không có căn cứ nếu bạn ước tính mà không có Lasso. Các hệ số của các thuật ngữ trong mô hình sau biến-select-then-fit-via-OLS sẽ thực sự bị sai lệch so với 0 (như với các hình thức lựa chọn biến khác). Một lượng nhỏ co rút thực sự có thể làm giảm sự thiên vị.
Glen_b -Reinstate Monica

Câu trả lời:


12

Để thêm vào các phản ứng trước đó. Bạn chắc chắn nên kiểm tra công việc gần đây của Tibshirani và các đồng nghiệp. Họ đã phát triển một khuôn khổ nghiêm ngặt để suy ra các giá trị p và khoảng tin cậy được hiệu chỉnh cho các phương pháp kiểu Lasso và cũng cung cấp gói R.

Xem:

Lee, Jason D., et al. "Suy luận sau lựa chọn chính xác, với ứng dụng cho Lasso." Biên niên sử Thống kê 44.3 (2016): 907-927. ( https://projecteuclid.org/euclid.aos/1460381681 )

Taylor, Jonathan và Robert J. Tibshirani. "Học thống kê và suy luận có chọn lọc." Kỷ yếu của Viện Hàn lâm Khoa học Quốc gia 112,25 (2015): 7629-7634.

Gói R:

https://cran.r-project.org/web/packages/selectiveInference/index.html


17

Nói chung, việc tinh chỉnh không sử dụng hình phạt nào sau khi thực hiện lựa chọn biến qua Lasso được coi là "gian lận" vì bạn đã xem dữ liệu và kết quả giá trị p và khoảng tin cậy không có giá trị theo nghĩa thông thường.

p

tập hợp các biến được chọn bởi lasso là xác định và không phụ thuộc dữ liệu với xác suất cao.

Do đó, nhìn trộm dữ liệu hai lần không phải là vấn đề. Bạn sẽ cần phải xem liệu đối với vấn đề của bạn, các điều kiện được nêu trong giấy giữ hay không.

(Có rất nhiều tài liệu tham khảo hữu ích trong bài báo)


Tài liệu tham khảo:

Zhao, S., Shojaie, A., & Witten, D. (2017). Để bảo vệ những thứ không thể bảo vệ: Một cách tiếp cận rất ngây thơ đối với suy luận chiều cao. Lấy từ: https://arxiv.org/pdf/1705.05543.pdf


9
+1 Tuy nhiên, điều đáng chú ý là các tác giả rõ ràng không khuyến nghị cách tiếp cận của họ ngoại trừ "trong cài đặt dữ liệu rất lớn": "Chúng tôi không ủng hộ việc áp dụng ... phương pháp được mô tả ở trên trong hầu hết các cài đặt phân tích dữ liệu thực tế: chúng tôi tự tin rằng trong thực tế ... phương pháp này sẽ hoạt động kém khi cỡ mẫu nhỏ hoặc trung bình và / hoặc các giả định không được đáp ứng "(tại trang 27). Đối với hồ sơ, bài báo này là Zhao, Shojaie và Witten, Bảo vệ những điều không thể nói được: Cách tiếp cận rất ngây thơ đối với suy luận chiều cao (16 tháng 5 năm 2017).
whuber

@whuber Và cũng nên nhớ rằng bài viết này có trên arxiv.org - không chắc nó có được đánh giá ngang hàng hay không nên có thể có các vấn đề khác với phương pháp của tác giả.
RobertF

0

Tôi muốn thêm một số bài báo từ tài liệu học máy trực giao / kép đang trở nên phổ biến trong tài liệu Kinh tế lượng ứng dụng.

  • Belloni, Alexandre, Victor Chernozhukov và Christian Hansen. "Suy luận về hiệu quả điều trị sau khi lựa chọn trong số các biện pháp kiểm soát chiều cao." Đánh giá của nghiên cứu kinh tế 81.2 (2014): 608-650.

    Bài viết này đề cập đến các thuộc tính lý thuyết của ước tính OLS về tác động của biến sau khi chọn các điều khiển "khác" bằng LASSO.

  • Victor Chernozhukov, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, James Robins, Double / debiased machine learning để điều trị và các thông số cấu trúc, Tạp chí Kinh tế lượng, Tập 21, Số 1, ngày 1 tháng 2 năm 2018, Trang C1 , https://doi.org/10.1111/ectj.12097

    Điều này phát triển lý thuyết toàn diện cho việc sử dụng một số phương pháp phi tham số (thuật toán ML) để kiểm soát phi tuyến tính cho một tham số phiền toái chiều cao (các yếu tố gây nhiễu) và sau đó nghiên cứu tác động của một hiệp phương cụ thể đến kết quả. Họ đối phó với các khung tuyến tính một phần và các khung tham số hoàn toàn. Họ cũng xem xét các tình huống mà các biến quan tâm bị nhầm lẫn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.