Sử dụng LASSO để chọn biến, sau đó sử dụng Logit


10

Tôi biết điều này sẽ làm vẩn đục suy luận thống kê, nhưng tôi thực sự chỉ quan tâm đến việc đến gần một mô hình chính xác nhất có thể.

Tôi có một biến kết cục nhị phân, với một tập hợp lớn các yếu tố dự đoán nhị phân. Tôi nghĩ rằng tôi muốn thử sử dụng LASSO để chọn các biến tôi nên đưa vào mô hình của mình, sau đó nhập các biến được chọn đó vào hồi quy Logit.

Có điều gì tôi đang xem xét khi nói đến tính thực tiễn của phương pháp này?


4
Bạn đang xem xét rằng bạn có thể sử dụng hình phạt định mức L1 của LASSO trong hồi quy logistic giống như trong hồi quy tuyến tính.
Scortchi - Tái lập Monica

1
Và LASSO thu nhỏ cũng như lựa chọn, mà bạn sẽ hoàn tác.
Scortchi - Tái lập Monica

Vì vậy, đó là những gì tôi nghĩ (vis-a-vis) thu nhỏ). Tôi đang sử dụng gói LARS trong STATA. Mô hình mà nó tạo ra không cho phép chặn, vì vậy nó không thể bị thu hẹp, phải không?
EvKohl

Việc chặn trong một mô hình logit được cố định bởi tỷ lệ dương với âm.
Sycorax nói Phục hồi lại

2
Bạn luôn có thể bao gồm một cột của dữ liệu để ước tính thời hạn chặn. Nhưng thực sự không cần phải chạy để tách các mô hình. Chỉ cần sử dụng hồi quy logistic với hình phạt L1.
Sven

Câu trả lời:


9

Có một gói trong R được gọi là glmnet có thể phù hợp với mô hình logistic LASSO dành cho bạn! Điều này sẽ đơn giản hơn so với cách tiếp cận bạn đang xem xét. Chính xác hơn, glmnet là sự kết hợp giữa hồi quy LASSO và Ridge nhưng bạn có thể đặt tham số để thực hiện mô hình LASSO thuần túy. Vì bạn quan tâm đến hồi quy logistic, bạn sẽ đặt Family = "binomial".α=1

Bạn có thể đọc thêm tại đây: http://web.stanford.edu/~hastie/glmnet/glmnet_alpha.html#intro


(+1) Không nghi ngờ gì nữa về gói Stata cho việc này - Statalist sẽ là nơi tốt nhất để hỏi.
Scortchi - Phục hồi Monica

Cảm ơn. Tôi thực sự không nghĩ rằng có một gói STATA cho nó. Tất cả các đề cập tôi tìm thấy là dành cho R.
EvKohl

3
Googling đã cho stata lasso logistictôi trang chủ.ucl.ac.uk/~ucakgam/stata.html là kết quả đầu tiên.
Scortchi - Tái lập Monica

Bất cứ ai cũng biết về một gói trong Python cũng có thể làm điều này?
rbm

@rbm Tôi chắc chắn sẽ trễ bữa tiệc, nhưng bạn có thể áp dụng chính quy cho các hồi quy logistic trong scikit-learn.
Eli Korvigo

2

Đầu tiên, không có gì đảm bảo rằng một mô hình xác suất tuyến tính sẽ xấp xỉ mô hình logit rất tốt; do đó, tập hợp con của các biến được chọn cho một biến có thể ít phù hợp hơn với biến kia.

Thứ hai, việc lắp lại không áp dụng co ngót chút nào, mặc dù lựa chọn biến được thực hiện trong bước đầu tiên; có nguy cơ hiệu chuẩn sai nghiêm trọng & có lẽ mất một chút phân biệt đối xử.

Bạn có thể xác thực quy trình trên một tập dữ liệu cụ thể, nhưng nói chung có vẻ không an toàn hoặc cung cấp bất kỳ lợi thế nào đối với hồi quy logistic từng bước. Và tất nhiên nó không cần thiết; Hình phạt của LASSO có thể được sử dụng để thu hẹp & lựa chọn trong hồi quy logistic.L1

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.