Có một câu hỏi tương tự vài ngày trước có tham khảo liên quan:
- Belloni, A., Chernozhukov, V. và Hansen, C. (2014) "Suy luận về hiệu quả điều trị sau khi lựa chọn giữa các biện pháp kiểm soát chiều cao", Tạp chí Nghiên cứu kinh tế, 81 (2), tr. 608-50 ( liên kết )
Ít nhất đối với tôi, bài báo là một bài đọc khá khó khăn vì những bằng chứng đằng sau điều này tương đối đơn giản là khá phức tạp. Khi bạn đang quan tâm đến việc ước lượng một mô hình như
ytôi= α Ttôi+ X'tôiβ+ εtôi
Trong đó là kết quả của bạn, T i là một số hiệu quả điều trị được quan tâm và X i là một vectơ của các kiểm soát tiềm năng. Tham số đích là α . Giả sử rằng hầu hết các biến thể trong kết quả của bạn được giải thích bằng cách điều trị và một bộ kiểm soát thưa thớt, Belloni et al. (2014) phát triển phương pháp lựa chọn hai lần, cung cấp ước tính điểm chính xác và khoảng tin cậy hợp lệ. Giả định thưa thớt này là quan trọng mặc dù.ytôiTtôiXtôiα
Nếu bao gồm một vài yếu tố dự đoán quan trọng của y i nhưng bạn không biết chúng là gì (hoặc là các biến đơn, đa thức bậc cao hơn hoặc tương tác với các biến khác), bạn có thể thực hiện quy trình chọn ba bước:Xtôiytôi
- hồi quy trên X i , bình phương và tương tác của chúng và chọn các dự đoán quan trọng bằng LASSOytôiXtôi
- hồi quy trên X i , bình phương và tương tác của chúng và chọn các dự đoán quan trọng bằng LASSOTtôiXtôi
- hồi quy trên T i và tất cả các biến được chọn ở một trong hai bước đầu tiênytôiTtôi
Họ cung cấp bằng chứng về lý do tại sao điều này hoạt động và tại sao bạn có được khoảng tin cậy chính xác, vv từ phương pháp này. Chúng cũng chỉ ra rằng nếu bạn chỉ thực hiện lựa chọn LASSO theo hồi quy trên và sau đó hồi quy kết quả điều trị và các biến được chọn, bạn nhận được ước tính điểm sai và khoảng tin cậy sai, như Bjorn đã nói.
Mục đích để thực hiện điều này có hai mặt: so sánh mô hình ban đầu của bạn, trong đó lựa chọn biến được hướng dẫn bởi trực giác hoặc lý thuyết, với mô hình lựa chọn mạnh mẽ kép cho bạn ý tưởng về mô hình đầu tiên của bạn tốt như thế nào. Có lẽ mô hình đầu tiên của bạn đã quên một số thuật ngữ bình phương hoặc tương tác quan trọng và do đó phải chịu dạng hàm sai hoặc các biến bị bỏ qua. Thứ hai, Belloni et al. Phương pháp (2014) có thể cải thiện suy luận về tham số mục tiêu của bạn vì các biến hồi quy dự phòng đã bị phạt trong quy trình của chúng.