Làm thế nào có ý nghĩa để làm OLS sau khi lựa chọn biến LASSO?


20

Gần đây tôi đã thấy rằng trong tài liệu kinh tế lượng kinh tế học ứng dụng, khi xử lý các vấn đề lựa chọn tính năng, không có gì lạ khi thực hiện LASSO theo sau là hồi quy OLS bằng các biến được chọn.

Tôi đã tự hỏi làm thế nào chúng ta có thể đủ điều kiện hợp lệ của một thủ tục như vậy. Nó sẽ gây ra rắc rối như các biến bị bỏ qua? Bất kỳ bằng chứng nào cho thấy nó hiệu quả hơn, hoặc kết quả dễ hiểu hơn?

Dưới đây là một số thảo luận liên quan:

Lựa chọn biến với LASSO

Sử dụng cây sau khi chọn biến bằng Lasso / Random

Nếu, như đã chỉ ra, một quy trình như vậy nói chung là không chính xác, thì tại sao vẫn còn nhiều nghiên cứu làm như vậy? Tôi có thể nói rằng đó chỉ là một quy tắc, một giải pháp thỏa hiệp, do một số tính chất không thoải mái của công cụ ước tính LASSO và sự yêu thích của mọi người đối với OLS không?


Bạn có thể giải thích ý nghĩa của việc thực hiện "hồi quy OLS" sau khi thực hiện LASSO không? Cụ thể, bước OLS này đang cố ước tính rằng LASSO chưa ước tính?
whuber

2
Có một vài bài viết gần đây về chủ đề này. Nhiều người dường như yêu cầu giả định rằng tập hợp các biến hợp lệ là thưa thớt. Nếu giả định đó không giữ được, thì có thể bỏ qua các biến thiên vị. Và mọi người thích ols vì họ muốn giải thích coefs là không thiên vị trong các hiệu ứng cận biên mẫu. Kinh tế lượng khá bị mắc kẹt trong mô hình đó.
generic_user

4
Trong này cuốn sách Lasso gần đây (miễn phí trực tuyến), phần 11.4 xuất hiện để giải quyết vấn đề này. Tôi đã không đọc này một cách chi tiết, nhưng sự ra đời đầu bằng cách nói "Với [a Lasso ước đó một cách chính xác phục hồi sự ủng hộ của β * , chúng ta có thể ước lượng β * rất tốt ... chỉ đơn giản bằng cách thực hiện một bình thường bình phương nhỏ nhất hồi quy giới hạn trong tập hợp con này. " β^β*β*
GeoMatt22

Câu trả lời:


12

Có một câu hỏi tương tự vài ngày trước có tham khảo liên quan:

  • Belloni, A., Chernozhukov, V. và Hansen, C. (2014) "Suy luận về hiệu quả điều trị sau khi lựa chọn giữa các biện pháp kiểm soát chiều cao", Tạp chí Nghiên cứu kinh tế, 81 (2), tr. 608-50 ( liên kết )

Ít nhất đối với tôi, bài báo là một bài đọc khá khó khăn vì những bằng chứng đằng sau điều này tương đối đơn giản là khá phức tạp. Khi bạn đang quan tâm đến việc ước lượng một mô hình như

ytôi= =αTtôi+Xtôi'β+εtôi

Trong đó là kết quả của bạn, T i là một số hiệu quả điều trị được quan tâm và X i là một vectơ của các kiểm soát tiềm năng. Tham số đích là α . Giả sử rằng hầu hết các biến thể trong kết quả của bạn được giải thích bằng cách điều trị và một bộ kiểm soát thưa thớt, Belloni et al. (2014) phát triển phương pháp lựa chọn hai lần, cung cấp ước tính điểm chính xác và khoảng tin cậy hợp lệ. Giả định thưa thớt này là quan trọng mặc dù.ytôiTtôiXtôiα

Nếu bao gồm một vài yếu tố dự đoán quan trọng của y i nhưng bạn không biết chúng là gì (hoặc là các biến đơn, đa thức bậc cao hơn hoặc tương tác với các biến khác), bạn có thể thực hiện quy trình chọn ba bước:Xtôiytôi

  1. hồi quy trên X i , bình phương và tương tác của chúng và chọn các dự đoán quan trọng bằng LASSOytôiXtôi
  2. hồi quy trên X i , bình phương và tương tác của chúng và chọn các dự đoán quan trọng bằng LASSOTtôiXtôi
  3. hồi quy trên T i và tất cả các biến được chọn ở một trong hai bước đầu tiênytôiTtôi

Họ cung cấp bằng chứng về lý do tại sao điều này hoạt động và tại sao bạn có được khoảng tin cậy chính xác, vv từ phương pháp này. Chúng cũng chỉ ra rằng nếu bạn chỉ thực hiện lựa chọn LASSO theo hồi quy trên và sau đó hồi quy kết quả điều trị và các biến được chọn, bạn nhận được ước tính điểm sai và khoảng tin cậy sai, như Bjorn đã nói.

Mục đích để thực hiện điều này có hai mặt: so sánh mô hình ban đầu của bạn, trong đó lựa chọn biến được hướng dẫn bởi trực giác hoặc lý thuyết, với mô hình lựa chọn mạnh mẽ kép cho bạn ý tưởng về mô hình đầu tiên của bạn tốt như thế nào. Có lẽ mô hình đầu tiên của bạn đã quên một số thuật ngữ bình phương hoặc tương tác quan trọng và do đó phải chịu dạng hàm sai hoặc các biến bị bỏ qua. Thứ hai, Belloni et al. Phương pháp (2014) có thể cải thiện suy luận về tham số mục tiêu của bạn vì các biến hồi quy dự phòng đã bị phạt trong quy trình của chúng.


Ước tính điểm "đúng"?
Richard Hardy

3

Để thực hiện lựa chọn biến và sau đó chạy lại anslysis, như thể không có lựa chọn biến nào xảy ra và mô hình được chọn đã được dự định ngay từ đầu, thường dẫn đến kích thước hiệu ứng phóng đại, giá trị p không hợp lệ và khoảng tin cậy với độ bao phủ dưới danh nghĩa. Có lẽ nếu kích thước mẫu rất lớn và có một vài hiệu ứng lớn và rất nhiều hiệu ứng null, LASSO + OLS có thể không bị ảnh hưởng quá nhiều bởi điều này, nhưng ngoài ra tôi không thể thấy bất kỳ lời biện minh hợp lý nào và trong trường hợp đó là LASSO ước tính nên được tốt, quá.


1
Nhưng tại sao mô hình thứ hai bắt đầu từ đầu như thể không có lựa chọn biến nào xảy ra? LASSO không chọn biến giải thích với khả năng dự đoán tốt nhất? BTW Tôi nghĩ sẽ làm công cụ biến ma trận thưa thớt LASSO thành glm một lần nữa. Bây giờ tôi đã hiểu LASSO per se là một hồi quy.
SIslam
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.