Tại sao glmnet sử dụng mạng lưới đàn hồi của nai naiveve từ giấy gốc của Zou & Hastie?


27

Giấy ròng đàn hồi ban đầu Zou & Hastie (2005) Chính quy hóa và lựa chọn biến qua lưới đàn hồi giới thiệu hàm mất mạng đàn hồi cho hồi quy tuyến tính (ở đây tôi giả sử tất cả các biến được tập trung và chia tỷ lệ thành phương sai đơn vị): nhưng được gọi là "lưới đàn hồi ngây thơ". Họ lập luận rằng nó thực hiện co rút gấp đôi (lasso và sườn núi), có xu hướng co lại quá mức và có thể được cải thiện bằng cách thay đổi kích thước giải pháp thu được như sau: \ hat \ beta ^ * = (1+ \ lambda_2) \ hat \ beta. Họ đã đưa ra một số lập luận lý thuyết và bằng chứng thực nghiệm rằng điều này dẫn đến hiệu suất tốt hơn.

L= =1ny-Xβ2+λ1β1+λ2β22,
β^*= =(1+λ2)β^.

Tuy nhiên, glmnetbài báo tiếp theo Friedman, Hastie, & Tibshirani (2010) Các đường dẫn chính quy cho các mô hình tuyến tính tổng quát thông qua gốc tọa độ đã không sử dụng phép thay đổi tỷ lệ này và chỉ có một chú thích ngắn gọn

Zou và Hastie (2005) gọi hình phạt này là lưới đàn hồi ngây thơ , và ưa thích một phiên bản thay đổi kích thước mà họ gọi là lưới đàn hồi. Chúng tôi bỏ sự phân biệt này ở đây.

Không có lời giải thích nào được đưa ra ở đó (hoặc trong bất kỳ sách giáo khoa nào của Hastie và cộng sự). Tôi thấy nó hơi khó hiểu. Có phải các tác giả đã bỏ qua việc chỉnh sửa lại vì họ cho rằng nó quá đặc biệt ? bởi vì nó thực hiện tồi tệ hơn trong một số thí nghiệm tiếp theo? bởi vì không rõ làm thế nào để khái quát nó cho trường hợp GLM? Tôi không có ý kiến. Nhưng trong mọi trường hợp, glmnetgói trở nên rất phổ biến kể từ đó và vì vậy ấn tượng của tôi là ngày nay không ai sử dụng việc thay đổi kích thước từ Zou & Hastie, và hầu hết mọi người thậm chí có thể không biết về khả năng này.

Câu hỏi: sau tất cả, đây có phải là một ý tưởng tốt hay một ý tưởng tồi?

Với glmnettham số hóa, Zou & Hastie thay đổi kích thước phải là

β^*= =(1+λ(1-α))β^.

1
Vì trong bài viết glment, mục tiêu là phù hợp với toàn bộ con đường chính quy, có thể ý tưởng là việc thay đổi kích thước sẽ chỉ là một sự biến đổi đơn điệu của con đường?
Matthew Drury

1
@MatthewDrury Điều đó đúng nhưng vẫn là nếu Friedman et al. tin rằng thay đổi kích thước là một ý tưởng tốt, họ sẽ không bỏ nó ra khỏi giấy và đặc biệt là ra khỏi glmnetmã. Nó không có sẵn ở đó ngay cả khi là một tính năng tùy chọn (mã trước đó của họ đi kèm với bài báo năm 2005 tất nhiên hỗ trợ thay đổi kích thước).
amip nói rằng Phục hồi lại

4
Thật không may, mã glmnet công khai hoàn toàn không thể đọc được ...
Matthew Drury

Câu trả lời:


25

Tôi đã gửi email câu hỏi này cho Zou và tới Hastie và nhận được câu trả lời sau đây từ Hastie (tôi hy vọng anh ấy sẽ không phiền tôi trích dẫn nó ở đây):

Tôi nghĩ rằng trong Zou et al, chúng tôi đã lo lắng về sự thiên vị bổ sung, nhưng tất nhiên việc thay đổi kích thước làm tăng phương sai. Vì vậy, nó chỉ thay đổi một dọc theo đường cong đánh đổi sai lệch. Chúng tôi sẽ sớm đưa vào một phiên bản của Lasso thoải mái, một hình thức thay đổi kích thước tốt hơn.

Tôi giải thích những từ này như là một sự chứng thực của một số hình thức "thay đổi kích thước" của giải pháp lưới đàn hồi vani, nhưng dường như Hastie không còn đứng trước phương pháp cụ thể được đưa ra trong Zou & Hastie 2005.


Sau đây tôi sẽ xem xét ngắn gọn và so sánh một số tùy chọn thay đổi kích thước.

glmnet

L= =12ny-β0-Xβ2+λ(αβ1+(1-α)β22/2),
β^
  1. β^thay đổi kích thước= =(1+λ(1-α))β^.
    α= =0α= =1
  2. β^đàn hồi-OLS-lai= =TUỔI(Xtôi|β^tôi0)
    nn
  3. Lasso thư giãn được đề cập trong email của Hastie được trích dẫn ở trên là một gợi ý để chạy một Lasso khác trên tập hợp các yếu tố dự đoán được chọn bởi Lasso đầu tiên. Ý tưởng là sử dụng hai hình phạt khác nhau và chọn cả hai thông qua xác nhận chéo. Người ta có thể áp dụng cùng một ý tưởng cho lưới đàn hồi, nhưng điều này dường như đòi hỏi bốn thông số chính quy khác nhau và điều chỉnh chúng là một cơn ác mộng.

    β^α= =0λ

    β^thoải mái-đàn hồi-lưới= =cây rơm(Xtôi|β^tôi0).

n«pn= =44p= =3000yX

Rkiểm tra2= =1-ykiểm tra-β^0-Xkiểm traβ^2ykiểm tra-β^02.
β^

nhập mô tả hình ảnh ở đây

Vì vậy, ít nhất trong các dữ liệu này, cả ba phương pháp đều vượt trội hơn so với công cụ ước tính lưới đàn hồi vanilla và "lưới đàn hồi thư giãn" hoạt động tốt nhất.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.