LASSO cho các mô hình giải thích: thu nhỏ tham số hay không?


9

Tôi đang tiến hành phân tích trong đó mục tiêu chính là tìm hiểu dữ liệu. Bộ dữ liệu đủ lớn để xác thực chéo (10k) và các yếu tố dự đoán bao gồm cả biến liên tục và biến giả, và kết quả là liên tục. Mục tiêu chính là để xem liệu nó có ý nghĩa để loại bỏ một số dự đoán, để làm cho mô hình dễ giải thích hơn.

Câu hỏi:

  1. Câu hỏi của tôi là "vars nào giải thích kết quả và là một phần 'đủ mạnh' trong lời giải thích đó". Nhưng để chọn tham số lambda cho lasso, bạn sử dụng xác thực chéo, nghĩa là tính hợp lệ dự đoán làm tiêu chí. Khi thực hiện suy luận, tính hợp lệ dự đoán có phải là một proxy đủ tốt cho câu hỏi chung tôi đang hỏi không?

  2. Nói LASSO chỉ giữ 3 trong số 8 người dự đoán. Và bây giờ tôi tự hỏi: "những điều này có ảnh hưởng gì đến kết quả". Ví dụ, tôi tìm thấy một sự khác biệt giới tính. Sau khi co rút Lasso, hệ số cho thấy phụ nữ đạt điểm cao hơn nam giới 1 điểm. Nhưng không có sự thu hẹp (nghĩa là trên tập dữ liệu thực tế), họ đạt điểm cao hơn 2,5 điểm.

    • Tôi sẽ lấy cái nào làm hiệu ứng giới tính "thực sự" của mình? Đi chỉ bằng tính hợp lệ dự đoán, nó sẽ là hệ số thu nhỏ.
    • Hoặc trong một bối cảnh, giả sử rằng tôi đang viết báo cáo cho những người không rành về thống kê. Hệ số nào tôi sẽ báo cáo với họ?

1
Bạn đang nhìn vào loại mô hình nào? Mô hình tuyến tính, logistic, poisson, vv?
TrynnaDoStat

1
Đó là một mô hình tuyến tính, nhưng tôi không nghĩ điều đó tạo ra sự khác biệt cho câu hỏi
mbokulic

Câu trả lời:


7

Nếu mục tiêu của bạn là ước tính chính xác các tham số trong mô hình của bạn thì mức độ gần với mô hình thực sự là cách bạn nên chọn mô hình của mình. Tính hợp lệ dự đoán thông qua xác thực chéo là một cách để làm điều này và là cách ưa thích để chọn trong hồi quy LASSO.λ

Bây giờ, để trả lời câu hỏi ước tính tham số nào là "ước tính thực", người ta nên xem tham số nào "gần nhất" với giá trị tham số thực. "Gần nhất" có nghĩa là các ước tính tham số giảm thiểu sai lệch? Nếu vậy, thì công cụ ước lượng bình phương nhỏ nhất không thiên vị trong hồi quy tuyến tính. Có phải gần nhất có nghĩa là ước tính tham số giảm thiểu lỗi bình phương trung bình (MSE) không? Sau đó, có thể chỉ ra rằng có một đặc điểm của hồi quy sườn sẽ cung cấp cho bạn các ước tính giảm thiểu MSE (tương tự LASSO, hồi quy sườn thu nhỏ ước tính tham số về 0 nhưng khác với LASSO, ước tính tham số không đạt đến 0). Tương tựλ). Là nhà thống kê, bạn phải xác định đâu là ước tính "tốt nhất" và báo cáo nó (tốt nhất là với một số dấu hiệu về độ tin cậy của ước tính) cho những người không rành về thống kê. "Tốt nhất" có thể hoặc không thể là một ước tính sai lệch.

Các glmnetchức năng trong R làm một công việc tốt đẹp của việc lựa chọn những giá trị tốt đẹp của và, trong Tóm lại, chọn qua cross-validation và báo cáo dự toán tham số là một cách hoàn toàn hợp lý để ước tính "thật" giá trị của các thông số.λλ

Một mô hình LASSO Bayesian chọn theo khả năng cận biên được một số người ưa thích nhưng có lẽ tôi không chính xác, giả sử bạn đang thực hiện mô hình LASSO thường xuyên.λ


Ý của bạn là "thiên vị" trong "ước tính tham số giảm thiểu sai lệch" là gì? Và tôi có đọc chính xác phần còn lại nếu tôi đọc nó như thế này không: Tôi nên chọn mô hình có MSE ước tính ngoài mẫu thấp nhất (nghĩa là trong xác thực chéo)? Vì sườn núi nằm ngoài câu hỏi vì tôi muốn có ma trận hệ số thưa thớt, nên báo cáo các hệ số Lasso bị
thu hẹp

@mbokulic Theo xu hướng tôi có nghĩa là thiên vị thống kê. Điều này đề cập đến xu hướng của một quá trình đo lường hơn / dưới ước tính giá trị của một tham số dân số. Câu trả lời của tôi là nói rằng nó phụ thuộc vào những gì bạn muốn. Nếu bạn không muốn thiên vị, hãy kiên trì với hồi quy tuyến tính. Nếu bạn ổn với xu hướng và thích giảm thiểu MSE, hãy đi với LASSO và đặt sự cẩn trọng khi chọn . λ
TrynnaDoStat

Thật thú vị, tôi chưa bao giờ nghĩ về nó theo cách đó. Một lần nữa tôi phải hỏi tôi có hiểu đúng về bạn không. Vì vậy, hồi quy tuyến tính cung cấp cho bạn ước tính không thiên vị nhất về các hệ số dân số (ví dụ "cao hơn 2,5 điểm" trong câu hỏi ban đầu của tôi). Trong khi đó Lasso hoặc sườn núi regr. giảm thiểu MSE ngoài mẫu. Nếu vậy, nếu bạn chỉ muốn hiểu (không dự đoán), hồi quy tuyến tính có vẻ tốt hơn, mặc dù bạn vẫn muốn đơn giản hóa mô hình bằng các phương pháp từng bước.
mbokulic

các câu trả lời ở đây rất hữu ích. Họ đề nghị rằng OLS (hồi quy tuyến tính) có hiệu suất trong mẫu, trong khi lasso là dành cho mẫu ngoài mẫu. Ngoài ra, họ đề xuất rằng OLS có thể được sử dụng trên tập hợp các dự đoán bị hạn chế do Lasso chọn. Đây chính xác là điều có ý nghĩa đối với mục tiêu diễn giải của tôi, ngay cả khi các ước tính OLS sẽ hơi quá mức.
mbokulic
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.