Những ưu và nhược điểm của việc sử dụng LASSO để phân tích nguyên nhân là gì?


8

Học thống kê và kết quả của nó hiện đang lan tỏa trong Khoa học xã hội. Một vài tháng trước, Guido Imbens đã nói: "LASSO là OLS mới".

Tôi đã học Machine Learning một chút và tôi biết rằng mục tiêu chính của nó là dự đoán. Tôi cũng đồng ý với sự khác biệt của Leo Breiman giữa hai nền văn hóa thống kê. Vì vậy, theo quan điểm của tôi, quan hệ nhân quả trái ngược với dự đoán ở một mức độ nào đó.

Xem xét rằng các ngành khoa học thường cố gắng xác định và hiểu các mối quan hệ nhân quả, liệu máy học có hữu ích cho mục tiêu này không? Cụ thể, những lợi thế của LASSO để phân tích nguyên nhân là gì?

Có nhà nghiên cứu nào (và giấy tờ) giải quyết những câu hỏi đó không?


2
Chà, OLS sẽ không đưa ra ước tính về tác động nhân quả rất thường xuyên, vì vậy nếu LASSO thay thế OLS, thì nó không có "gánh nặng" trong việc khám phá mối quan hệ nhân quả. Điều đó nói rằng, hãy xem trang này cho một số nghiên cứu gần đây về kinh tế lượng về tác động nhân quả và phương pháp thưa thớt: mit.edu/~vchern
Christoph Hanck

Đối với tôi, sự khác biệt tự nhiên hơn ở đây sẽ là bởi Shmueli ( "Giải thích hay Dự đoán" , 2010) chứ không phải của Breiman, nhưng có lẽ sự khác biệt của Breiman cũng tốt.
Richard Hardy

@ChristophHanck. Vâng, bạn nói đúng. Nhưng vấn đề là: OLS đã được sử dụng để ước tính tác động nhân quả rất nhiều. Ví dụ: 'Chủ yếu là Kinh tế lượng vô hại' giải quyết một số chủ đề liên quan đến vấn đề này. Do đó, nếu có thể với OLS, tại sao không với LASSO? Dù sao, cảm ơn bạn đã tham khảo.
Guilherme Duarte

@RichardHardy Bạn hoàn toàn đúng. Tôi biết bài báo này. Tôi chỉ đề cập đến Breiman, vì tôi nghĩ nó sẽ dễ giải thích hơn.
Guilherme Duarte

2
Tôi không đồng ý ở đó: trong trường hợp OLS có thể được sử dụng để ước tính các hiệu ứng thông thường, tôi không hiểu tại sao Lasso cũng không nên được áp dụng
Christoph Hanck

Câu trả lời:


2

Tôi không biết tất cả trong số họ, tôi chắc chắn, vì vậy tôi hy vọng không ai bận tâm nếu chúng tôi làm theo kiểu wiki này.

Mặc dù vậy, một điều quan trọng là LASSO bị sai lệch (nguồn, Wasserman trong bài giảng, xin lỗi), trong khi có thể chấp nhận được trong dự đoán, là một vấn đề trong suy luận nguyên nhân. Nếu bạn muốn quan hệ nhân quả, có lẽ bạn muốn nó cho Khoa học, vì vậy bạn không chỉ đang ước tính các tham số hữu ích nhất (điều kỳ lạ xảy ra để dự đoán tốt), bạn đang cố ước tính các tham số TRUE (!).


Câu trả lời tốt! Trên thực tế nếu bạn có thành kiến, đó là một vấn đề lớn cho các ước tính nguyên nhân. Nhưng có lẽ LASSO có thể được sử dụng sơ bộ trong một quy trình đầy đủ hơn để đánh giá quan hệ nhân quả.
Guilherme Duarte

Có lẽ! Đó là lý do tại sao tôi mong muốn có người khác kêu vang.
one_observation

2

@RichardHardy xin lỗi, ý bạn là khi chúng ta quan tâm đến quan hệ nhân quả, chúng ta không nên quan tâm đến sự thiên vị, nhưng với MSE? Điều này không hoàn toàn rõ ràng với tôi
Guilherme Duarte

1
@GuilhermeDuarte, giống như trong dự đoán, trong quan hệ nhân quả, chúng ta cần ước tính chính xác các hệ số mô hình. Độ chính xác có thể được đo lường về sai số tuyệt đối, sai số bình phương, v.v., nhưng không sai lệch. Ví dụ: bạn có thể có sai lệch thấp và lỗi ước lượng cao cùng một lúc. Vì vậy, nhìn vào thiên vị bạn sẽ nghĩ rằng bạn đang làm tốt, nhưng điều đó sẽ gây hiểu lầm vì lỗi ước tính (tuyệt đối, bình phương hoặc bất cứ điều gì) là cao. Đó là lỗi ước tính, không phải là sai lệch quan trọng khi bạn xem xét kích thước hiệu ứng, ý nghĩa thống kê, vv trong suy luận nguyên nhân.
Richard Hardy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.