Giải thích các hệ số hồi quy LASSO


12

Tôi hiện đang làm việc để xây dựng một mô hình dự đoán cho kết quả nhị phân trên tập dữ liệu với ~ 300 biến và 800 quan sát. Tôi đã đọc nhiều trên trang web này về các vấn đề liên quan đến hồi quy từng bước và tại sao không sử dụng nó.

Tôi đã đọc về hồi quy LASSO và khả năng lựa chọn tính năng của nó và đã thành công trong việc triển khai nó với việc sử dụng gói "caret" và "glmnet".

Tôi có thể trích xuất hệ số của mô hình với tối ưu lambdaalphatừ "dấu mũ"; tuy nhiên, tôi không quen với cách diễn giải các hệ số.

  • Các hệ số LASSO có được diễn giải theo cùng một phương pháp như hồi quy logistic không?
  • Nó có thích hợp để sử dụng các tính năng được chọn từ LASSO trong hồi quy logistic không?

BIÊN TẬP

Giải thích các hệ số, như trong các hệ số lũy thừa từ hồi quy LASSO là tỷ lệ cược log cho một đơn vị thay đổi trong hệ số trong khi giữ tất cả các hệ số khác không đổi.

https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/


Bạn có thể điền một chút ý của bạn bằng cách "diễn giải theo cách tương tự như hồi quy logistic" không? Tôi rất hữu ích để biết chính xác những diễn giải mà bạn muốn khái quát.
Matthew Drury

1
@Matthew Drury - Cảm ơn bạn rất nhiều vì đã dành thời gian hỗ trợ tôi, vì khóa học của tôi không bao giờ vượt qua LASSO. Nói chung, từ những gì tôi được dạy trong các khóa học sau đại học, các hệ số lũy thừa từ hồi quy logistic mang lại tỷ lệ cược log của hệ số tăng 1 đơn vị trong khi giữ tất cả các hệ số khác không đổi.
Michael Lưu

1
Trong "dấu mũ", bạn chọn và . Nơi nào đến từ đâu? Đây có lẽ là một siêu tham số của lưới đàn hồi (trọng lượng tương đối của LASSO so với hình phạt sườn núi) (trong trường hợp đó bạn thực sự sẽ sử dụng lưới đàn hồi thay vì LASSO)? bước sóng alphaαλα
Richard Hardy

Theo như tôi có thể nói, thử nghiệm ý nghĩa cho các hệ số đã không được giới thiệu trong hầu hết các triển khai LASSO. Vì vậy, một sự khác biệt không phải là trong khi chúng ta có thể xác định các biến có ý nghĩa thống kê trong OLS, chúng ta không thể làm như vậy với LASSO ngoại trừ đưa ra tuyên bố yếu hơn rằng các hệ số LASSO của các biến tương ứng được chọn là các biến "quan trọng" cần xem xét?
Godspeed

Câu trả lời:


13

Các hệ số LASSO có được diễn giải theo cùng một phương pháp như hồi quy logistic không?

Hãy để tôi nói lại: Các hệ số LASSO có được diễn giải theo cùng một cách như, ví dụ, các hệ số khả năng tối đa OLS trong hồi quy logistic không?

LASSO (một phương pháp ước tính bị phạt) nhằm mục đích ước tính cùng số lượng (hệ số mô hình) như, khả năng tối đa của OLS (một phương pháp không được đánh giá cao). Mô hình là như nhau, và giải thích vẫn giống nhau. Các giá trị số từ LASSO thường sẽ khác với các giá trị từ khả năng tối đa của OLS : một số sẽ gần bằng 0 hơn, một số khác sẽ chính xác bằng không. Nếu số tiền phạt hợp lý đã được áp dụng, các ước tính LASSO sẽ nằm gần với các giá trị thực hơn so với ước tính khả năng tối đa của OLS , đó là một kết quả mong muốn.

Nó có thích hợp để sử dụng các tính năng được chọn từ LASSO trong hồi quy logistic không?

Không có vấn đề cố hữu với điều đó, nhưng bạn có thể sử dụng LASSO không chỉ cho lựa chọn tính năng mà còn cho ước tính hệ số. Như tôi đã đề cập ở trên, ước tính LASSO có thể chính xác hơn so với ước tính khả năng tối đa của OLS .


Cảm ơn bạn rất nhiều vì phản hồi này! Hãy làm cho nó thêm ý nghĩa hơn! Xin thứ lỗi cho kiến ​​thức hạn chế của tôi trong vấn đề này. Như bạn đã đề cập trong một nhận xét khác rằng tôi có thể đang sử dụng lưới đàn hồi thay vì LASSO qua caret vì nó chọn lambda và alpha tối ưu. Điều tương tự sẽ áp dụng liên quan đến các hệ số?
Michael Lưu

Vâng, nó sẽ. Logic cơ bản vẫn như cũ.
Richard Hardy

Bạn viết "giải thích vẫn như cũ". Bạn có thể giúp tôi hiểu điểm này? Dường như với tôi rằng việc giải thích các hệ số OLS trong cài đặt hồi quy bội phụ thuộc vào các biểu đồ hồi quy từng phần . Tuy nhiên, tính chất này không đúng với các hệ số lasso, khiến tôi tin rằng việc giải thích sẽ khác.
user795305

1
@Ben, Nếu chúng ta giả sử một mô hình thống kê cơ bản, chúng ta có thể ước tính các tham số của nó theo các cách khác nhau, hai mô hình phổ biến là OLS và lasso. Các hệ số ước tính nhắm vào cùng một mục tiêu và cả hai đều có một số lỗi ước tính (nếu bình phương, có thể được phân tách thành sai lệch và phương sai), vì vậy theo nghĩa này, cách hiểu của chúng là như nhau. Bây giờ tất nhiên các phương thức không giống nhau, vì vậy bạn nhận được các giá trị hệ số ước tính khác nhau. Nếu bạn quan tâm đến các phương pháp và các diễn giải đại số và hình học của chúng, thì chúng không giống nhau. Nhưng giải thích vấn đề là như nhau.
Richard Hardy

@RichardHardy Ah, được thôi, tôi nghĩ tôi hiểu rõ hơn những gì bạn đang nói. Chắc chắn rằng Lasso có thể đánh bại OLS trong lỗi ước tính, nhưng, vào cuối ngày, như bạn nói, đây chỉ là những người ước tính cho cùng một mục tiêu. Bất kỳ công cụ ước tính nào sẽ được diễn giải theo cùng một cách mà OLS được diễn giải? Chẳng hạn, công cụ ước tính (không ngẫu nhiên) có được hiểu theo cách đó không? hoặc công cụ ước tính với các mục iid thống nhất (0,1)? (vv) Dường như (với tôi) rằng các thuộc tính của công cụ ước tính cần phải được sử dụng trực tiếp trong diễn giải của nó và ngay cả các diễn giải về vấn đề cũng sẽ thay đổi. (1,,p)T
user795305
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.