Tại sao lambda và trong một lỗi tiêu chuẩn từ mức tối thiểu là giá trị được đề xuất cho lambda trong hồi quy mạng đàn hồi?


23

Tôi hiểu vai trò của lambda trong hồi quy lưới đàn hồi. Và tôi có thể hiểu tại sao người ta lại chọn lambda.min, giá trị của lambda giúp giảm thiểu lỗi xác thực chéo.

Câu hỏi của tôi là Trường hợp nào trong tài liệu thống kê được khuyến nghị sử dụng lambda.1se, đó là giá trị của lambda giúp giảm thiểu lỗi CV cộng với một lỗi tiêu chuẩn ? Tôi dường như không thể tìm thấy một trích dẫn chính thức, hoặc thậm chí là một lý do tại sao điều này thường là một giá trị tốt. Tôi hiểu rằng đó là một quy trình chính quy hạn chế hơn và sẽ thu nhỏ các tham số về 0, nhưng tôi không phải lúc nào cũng chắc chắn về các điều kiện theo đó lambda.1se là lựa chọn tốt hơn so với lambda.min. Ai đó có thể giúp giải thích?


5
Một tài liệu tham khảo chính thức có thể được tìm thấy trong Hastie et al. "Các yếu tố của học thống kê" trang 61. Tuy nhiên, họ không đưa ra nhiều lời biện minh cho sự lựa chọn này ...
Richard Hardy

Câu trả lời:


22

Friedman, Hastie và Tibshirani (2010) , trích dẫn các yếu tố của học thống kê , viết,

Chúng tôi thường sử dụng quy tắc lỗi một tiêu chuẩn của người dùng khi chọn mô hình tốt nhất; điều này thừa nhận thực tế là các đường cong rủi ro được ước tính có lỗi, do đó, lỗi ở phía của sự khó hiểu.

Lý do sử dụng một lỗi tiêu chuẩn, trái ngược với bất kỳ số tiền nào khác, dường như là vì đó là ... tiêu chuẩn. Krstajic, et al (2014) viết (nhấn mạnh đậm của tôi):

Breiman và cộng sự. [25] đã tìm thấy trong trường hợp chọn kích thước cây tối ưu cho các mô hình cây phân loại mà kích thước cây với lỗi xác thực chéo tối thiểu tạo ra một mô hình thường mặc trang phục. Do đó, trong Mục 3.4.3 của cuốn sách Breiman et al. [25] xác định một quy tắc lỗi tiêu chuẩn (quy tắc 1 SE) để chọn kích thước cây tối ưu và họ thực hiện nó trong suốt cuốn sách. Để tính toán sai số chuẩn cho xác nhận chéo V lần đơn, độ chính xác cần được tính cho mỗi lần gấp và sai số chuẩn được tính từ độ chính xác V từ mỗi lần gấp. Hastie và cộng sự. [4] xác định quy tắc 1 SE là chọn mô hình đáng chú ý nhất có lỗi không quá một lỗi tiêu chuẩn so với lỗi của mô hình tốt nhất và họ đề xuất ở một số nơi sử dụng quy tắc 1 SE để sử dụng xác thực chéo chung.Điểm chính của quy tắc 1 SE, theo đó chúng tôi đồng ý, là chọn mô hình đơn giản nhất có độ chính xác tương đương với mô hình tốt nhất .

λ


1
Cảm ơn bạn! Bây giờ tôi cuối cùng cũng có thể trích dẫn một cái gì đó phù hợp khi câu hỏi được đưa ra cho những người không quen thuộc với lựa chọn "tiêu chuẩn" của lambda. Liên kết đến Krstajic et al trông cũng rất tuyệt.
jhersh

Trích dẫn đó chỉ nói rằng "1se đã được tìm thấy là tối ưu để phân loại ". Nhưng câu hỏi về hồi quy ! Có những lựa chọn thay thế. Nếu chúng ta cố gắng, ví dụ như lùi về 2se, chúng ta sẽ gặp vấn đề là lambda quá lớn và thu nhỏ các hệ số quá nhiều. Nhưng chúng ta có thể xây dựng lại mô hình loại trừ tất cả các biến không được chọn tại lambda.1se trong mô hình ban đầu.
smci

@smci mà trích dẫn? Đây không phải là một trong những trích dẫn tôi trích xuất, cả hai đều cho rằng quy tắc 1-SE nói chung được áp dụng, không chỉ trong phân loại.
Shadowtalker

6

Cuốn sách của Breiman và cộng sự (được trích dẫn trong trích dẫn của câu trả lời khác từ Krstajic) là tài liệu tham khảo lâu đời nhất tôi tìm thấy cho quy tắc 1SE.

Đây là Cây phân loại và hồi quy của Breiman, Friedman, Stone và Olshen (1984). Họ "rút ra" quy tắc này trong mục 3.4.3.

Vì vậy, nếu bạn cần một trích dẫn chính thức, đó dường như là nguồn gốc.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.