có nên hủy bỏ các chỉ số dự báo / nhị phân / giả cho LASSO


30

Đối với LASSO (và các quy trình chọn mô hình khác), điều quan trọng là phải hủy bỏ các yếu tố dự đoán. Các chung đề nghị tôi theo cách đơn giản là sử dụng một 0 bình, 1 bình thường độ lệch chuẩn cho các biến liên tục. Nhưng có gì để làm với người giả?

Ví dụ, một số ví dụ được áp dụng từ cùng một trường học hè (xuất sắc) mà tôi đã liên kết để giải quyết các biến liên tục nằm trong khoảng từ 0 đến 1 (không tuyệt vời với các ngoại lệ), có lẽ có thể so sánh với các hình nộm. Nhưng ngay cả điều đó không đảm bảo rằng các hệ số phải có cùng thứ tự độ lớn, và do đó bị phạt tương tự, lý do chính cho việc thay đổi kích thước, không?


2
Câu trả lời ngắn gọn - không, không bán lại hình nộm
Affine

4
Liên quan đến này
julieth

@julieth, cảm ơn rất nhiều, hãy cho tôi biết nếu bạn tìm thấy một số câu trả lời kể từ đó.
László

Câu trả lời:


27

Theo Tibshirani ( PHƯƠNG PHÁP LASSO LỰA CHỌN LỰA CHỌN TRONG MÔ HÌNH COX, Thống kê trong Y học, TẬP 16, 385-395 (1997) ), người đã viết cuốn sách về phương pháp chính quy hóa, bạn nên chuẩn hóa các hình nộm. Tuy nhiên, sau đó bạn mất khả năng diễn giải đơn giản của các hệ số của bạn. Nếu bạn không, các biến của bạn không nằm trên một sân chơi bình đẳng. Về cơ bản, bạn đang nghiêng các thang đo có lợi cho các biến liên tục của mình (rất có thể). Vì vậy, nếu mục tiêu chính của bạn là lựa chọn mô hình thì đây là một lỗi nghiêm trọng. Tuy nhiên, nếu bạn quan tâm hơn đến việc giải thích thì có lẽ đây không phải là ý tưởng tốt nhất.

Đề xuất ở trang 394:

Phương pháp Lasso đòi hỏi tiêu chuẩn hóa ban đầu của các biến hồi quy, để sơ đồ xử phạt là công bằng cho tất cả các biến hồi quy. Đối với các biến hồi quy phân loại, người ta mã hóa biến hồi quy bằng các biến giả và sau đó chuẩn hóa các biến giả. Như được chỉ ra bởi một trọng tài, tuy nhiên, tỷ lệ tương đối giữa các biến liên tục và phân loại trong sơ đồ này có thể hơi tùy ý.


3
bạn có thể cung cấp một tài liệu tham khảo chính xác về nơi mà Tibshirani gợi ý tiêu chuẩn hóa các hình nộm.
seanv507

@ seanv507 "... một mã hóa các biến hồi quy với các biến giả và sau đó chuẩn hóa các biến giả ". Tôi nghĩ rằng lời giải thích của rocrat là chính xác: nói chung bạn muốn tất cả những người dự đoán, bao gồm cả người giả, có cùng quy mô và phương sai để hình phạt được công bằng.
Robert Kubrick

1
@RobertKubrick Tôi không đồng ý. Lý do cơ bản cho việc chính quy hóa là những thay đổi nhỏ sẽ có tác động nhỏ. Vì vậy, trường hợp lý tưởng là tất cả các biến của bạn có thang đo vật lý tự nhiên ghi lại biến phụ thuộc của bạn và bạn không bình thường hóa chúng. Thông thường chúng tôi không biết tỷ lệ chính xác, vì vậy chúng tôi sử dụng để bình thường hóa. Tuy nhiên, các biến phân loại có thang đo tự nhiên như vậy, cụ thể là xác suất chúng là 0 hoặc 1: Tôi cho rằng một biến có phần lớn thời gian là 0, ít quan trọng hơn một biến lật trong khoảng 0/1. Thay vào đó, câu trả lời của Jeff có vẻ phù hợp.
seanv507

8

Bài đăng trên blog của Andrew Gelman, Khi nào cần chuẩn hóa các đầu vào hồi quy và khi nào để chúng một mình , cũng đáng xem. Phần này đặc biệt có liên quan:

Để so sánh các hệ số cho các yếu tố dự đoán khác nhau trong một mô hình, việc chuẩn hóa sẽ nhận được cái gật đầu. (Mặc dù tôi không chuẩn hóa các đầu vào nhị phân. Tôi mã hóa chúng là 0/1, và sau đó tôi chuẩn hóa tất cả các đầu vào số khác bằng cách chia cho hai độ lệch chuẩn, do đó đặt chúng trên cùng một tỷ lệ với các biến 0/1.)


1
Và khi anh ta nói "không tiêu chuẩn hóa đầu vào nhị phân" , anh ta dường như có nghĩa là bất kỳ nhóm biến nóng nào, tức là bất kỳ hình nộm nào cho các biến phân loại?
smci

2
p(1-p)p= =0,50,25

x -> x / 2σ

Mặc dù vậy, dường như tất cả đều được giải thích ở đây: stat.columbia.edu/~gelman/research/unpublished/ Kẻ
Alex

3

Đây là nhiều hơn một bình luận, nhưng quá dài. Một trong những phần mềm được sử dụng nhiều nhất cho lasso (và bạn bè) là R's glmnet. Từ trang trợ giúp, được in bởi ?glmnet:

tiêu chuẩn hóa: Cờ logic cho tiêu chuẩn hóa biến x, trước khi khớp chuỗi mô hình. Các hệ số luôn được trả về theo tỷ lệ ban đầu. Mặc định là 'chuẩn hóa = TRUE'. Nếu các biến đã ở cùng một đơn vị, bạn có thể không muốn chuẩn hóa. Xem chi tiết bên dưới để chuẩn hóa y với 'Family = "gaussian"'.

X

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.