Làm thế nào có thể phòng thủ để chọn trong mô hình LASSO để nó mang lại số lượng dự đoán khác không mà một người mong muốn?


11

Khi tôi xác định lambda của mình thông qua xác nhận chéo, tất cả các hệ số trở thành số không. Nhưng tôi có một số gợi ý từ các tài liệu rằng một số dự đoán chắc chắn sẽ ảnh hưởng đến kết quả. Có phải rác rưởi là tùy tiện chọn lambda để có nhiều sự thưa thớt như một mong muốn?

Tôi muốn chọn 10 dự đoán hàng đầu hoặc hơn trong số 135 cho một mô hình cox và kích thước hiệu ứng không may là nhỏ.


6
Âm thanh như bạn nên sử dụng một thông tin trước, vì bạn có thông tin không dựa trên dữ liệu.
xác suất

Trong sâu thẳm tôi cảm thấy như thế sẽ đúng, thật không may là tôi hoàn toàn thiếu năng lực thống kê cho đến bây giờ bắt đầu làm việc này ở đâu.
miura

1
Bạn có vẻ nhầm lẫn hai điều khác nhau: (1) Nếu tài liệu yêu cầu bạn sử dụng các dự đoán cụ thể, thì hãy đưa chúng vào tất cả các mô hình. (2) Thay vào đó, bạn dường như diễn giải lại điều này như chỉ ra rằng bạn nên chọn một số nhất định trong số nhiều dự đoán, bất kể chúng có bao gồm những số cụ thể được đề cập trong tài liệu hay không. Bạn có thể làm rõ những gì bạn đang thực sự cố gắng để đạt được?
whuber

Câu trả lời:


4

Nếu bạn muốn có ít nhất một số lượng dự đoán xác định với một số phạm vi giá trị được xác định bởi tài liệu, tại sao lại chọn cách tiếp cận LASSO thuần túy để bắt đầu? Như @probabilityislogic đã đề xuất, bạn nên sử dụng một số linh mục thông tin về các biến mà bạn có một số kiến ​​thức về. Nếu bạn muốn giữ lại một số thuộc tính LASSO cho phần còn lại của các yếu tố dự đoán, có thể bạn có thể sử dụng phân phối theo cấp số nhân đôi cho mỗi đầu vào khác, nghĩa là sử dụng mật độ có dạng trong đóλ

p(βi)=λ2exp(λ|βi|),
λlà hệ số nhân trễ tương ứng với giải pháp LASSO thuần túy. Tuyên bố cuối cùng này xuất phát từ thực tế là, trong sự vắng mặt của các biến với các linh mục thông tin, đây là một cách khác để lấy LASSO (bằng cách tối đa hóa chế độ sau cho các giả định quy tắc cho các phần dư).

3

Có một cách hay để thực hiện LASSO nhưng sử dụng một số dự đoán cố định. Đó là hồi quy góc nhỏ nhất (LAR hoặc LARS) được mô tả trong bài báo của Efron. Trong quy trình lặp, nó tạo ra một số mô hình tuyến tính, mỗi mô hình mới có thêm một yếu tố dự đoán, vì vậy bạn có thể chọn một mô hình với số lượng dự đoán mong muốn.

Một cách khác là hoặc quy tắc. Như Nestor đã đề cập bằng cách sử dụng các linh mục phù hợp, bạn có thể kết hợp kiến ​​thức trước vào mô hình. Vì vậy, được gọi là máy vectơ liên quan bằng cách Tipping có thể hữu ích.l 2l1l2


3
Mặc dù LARS và Lasso có liên quan chặt chẽ với nhau, đối với một số lượng dự đoán cố định, chúng thậm chí có thể không bao gồm các biến giống nhau. Người ta có thể chọn một giá trị hình phạt cho Lasso đưa ra số lượng dự đoán mong muốn, nhưng sự lựa chọn trong cả hai trường hợp sẽ là duy nhất! Do đó, OP chưa cung cấp quy trình được xác định rõ, đây là một phần của vấn đề. Đối với LARS, có một lợi ích tuyệt vời là các giá trị hình phạt mang lại một số lượng dự đoán nhất định tạo thành một khoảng, do đó, chọn một điểm cuối (cái nào?) Hoặc điểm giữa hoặc một số tiêu chí khác có phần dễ dàng hơn.
Đức Hồng Y

1
Đúng, đúng là LARS và LASSO không giống nhau, nhưng một sửa đổi đơn giản về LARS được đề xuất bởi các tác giả trong bài viết gốc có thể được giới thiệu để thu được các giải pháp LASSO bằng kỹ thuật dựa trên LARS.
Alexey Zaytsev

Vâng, Alexey, đây là sự thật. Tôi đoán nhận xét của tôi xoay quanh lý do tại sao chuyển sang LARS ngay từ đầu. Người ta thường có thể dễ dàng chọn một giá trị của tham số hình phạt cho Lasso mang lại số lượng dự đoán mong muốn. Điểm chính không được giải quyết là làm thế nào người ta nên đưa ra lựa chọn duy nhất và hậu quả có thể xảy ra trong trường hợp của OP. :)
Đức hồng y

2

Không, đó là không thể phòng thủ. Rào cản lớn mà các quy trình lựa chọn mô hình được thiết kế để vượt qua là tính chính yếu của hỗ trợ thực sựlà không biết. (Ở đây chúng ta có là hệ số "đúng".) Bởi vìkhông rõ, một quy trình lựa chọn mô hình phải tìm kiếm toàn bộ trên tất cả mô hình có thể; tuy nhiên, nếu chúng ta đã biết, chúng tôi chỉ có thể kiểm tra các mô hình , ít hơn nhiều.β | S | 2 p | S ||S|=|{j:βj0}|β|S|2p|S|(p|S|)

Lý thuyết về Lasso dựa vào tham số chính quy đủ lớn để làm cho mô hình được chọn đủ thưa thớt. Có thể là 10 tính năng của bạn quá nhiều hoặc quá ít, vì việc biến giới hạn dưới của thành giới hạn trên trên.λλ|S|

Đặt là ước tính dựa trên dữ liệu của chúng tôi cho và đặt . Sau đó, có lẽ bạn đang cố gắng đảm bảo rằng để bạn đã phục hồi ít nhất các tính năng có liên quan? Hoặc có thể bạn đang cố gắng thiết lập để bạn biết rằng các tính năng bạn tìm thấy đều đáng giá? Trong những trường hợp này, quy trình của bạn sẽ hợp lý hơn nếu bạn có thông tin trước về kích thước tương đối của .β^βS^={j:β^j0}SS^S^SS

Ngoài ra, lưu ý, bạn có thể để một số hệ số không được đánh giá cao khi thực hiện lasso trong, ví dụ , glmnet.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.