Chính quy hóa mạng đàn hồi là gì và làm thế nào để giải quyết các nhược điểm của Ridge (


35

Là chính quy hóa mạng đàn hồi luôn được ưa thích đối với Lasso & Ridge vì nó dường như giải quyết được nhược điểm của các phương pháp này? Trực giác là gì và toán học đằng sau lưới đàn hồi là gì?


6
Kiểm tra Hastie et al. "Các yếu tố của học thống kê" chương 3 và 18 (tìm kiếm "lưới đàn hồi").
Richard Hardy

Câu trả lời:


42

1. Phương pháp nào được ưa thích?

Có, lưới đàn hồi luôn được ưa thích hơn hồi quy lasso & sườn vì nó giải quyết được các hạn chế của cả hai phương pháp, trong khi cũng bao gồm cả các trường hợp đặc biệt. Vì vậy, nếu giải pháp sườn núi hoặc Lasso thực sự là tốt nhất, thì bất kỳ thói quen lựa chọn mô hình tốt nào cũng sẽ xác định đó là một phần của quy trình mô hình hóa.

Nhận xét cho bài viết của tôi đã chỉ ra rằng những lợi thế của lưới đàn hồi không phải là không đủ tiêu chuẩn. Tôi tin tưởng rằng tính tổng quát của hồi quy thuần đàn hồi vẫn thích hợp hơn với chính quy L1 hoặc L2 . Cụ thể, tôi nghĩ rằng những điểm bất đồng giữa tôi và những người khác gắn liền với những giả định mà chúng tôi sẵn sàng đưa ra về quy trình mô hình hóa. Với sự hiện diện của kiến ​​thức mạnh mẽ về dữ liệu cơ bản, một số phương pháp sẽ được ưa thích hơn các phương pháp khác. Tuy nhiên, sở thích của tôi đối với lưới đàn hồi bắt nguồn từ sự hoài nghi của tôi rằng người ta sẽ tự tin biết rằng L1 hoặc L2 là mô hình thực sự.

  1. Yêu cầu: Kiến thức trước có thể làm giảm một trong những nhu cầu sử dụng hồi quy mạng đàn hồi.

Đây là một số thông tư. Hãy tha thứ cho tôi nếu điều này có phần lố lăng, nhưng nếu bạn biết rằng LASSO (sườn núi) là giải pháp tốt nhất, thì bạn sẽ không tự hỏi làm thế nào để mô hình hóa nó một cách thích hợp; bạn sẽ chỉ phù hợp với một mô hình LASSO (sườn núi). Nếu bạn hoàn toàn chắc chắn rằng câu trả lời đúng là hồi quy LASSO (sườn núi), thì bạn rõ ràng tin chắc rằng sẽ không có lý do gì để lãng phí thời gian để lắp lưới đàn hồi. Nhưng nếu bạn hơi ít chắc chắn liệu LASSO (sườn núi) có phải là cách chính xác để tiến hành hay không, tôi tin rằng sẽ hợp lý khi ước tính một mô hình linh hoạt hơn và đánh giá mức độ mạnh mẽ của dữ liệu hỗ trợ niềm tin trước đó.

  1. Yêu cầu: Dữ liệu lớn vừa phải sẽ không cho phép phát hiện ra các giải pháp L1 hoặc L2 như ưu tiên, ngay cả trong trường hợp khi giải pháp L1 hoặc L2 là mô hình thực sự.

Điều này cũng đúng, nhưng tôi nghĩ đó là thông tư vì một lý do tương tự: nếu bạn đã ước tính một giải pháp tối ưu và thấy rằng α{0,1}, thì đó là mô hình hỗ trợ dữ liệu. Một mặt, vâng, mô hình ước tính của bạn không phải là mô hình thực sự, nhưng tôi phải tự hỏi làm thế nào người ta biết rằng mô hình thực sự là α=1 (hoặc α=0 ) trước bất kỳ ước tính mô hình nào. Có thể có những lĩnh vực mà bạn có loại kiến ​​thức trước đây, nhưng công việc chuyên môn của tôi không phải là một trong số đó.

  1. Yêu cầu: Giới thiệu các siêu đường kính bổ sung làm tăng chi phí tính toán của việc ước tính mô hình.

Điều này chỉ có liên quan nếu bạn có giới hạn thời gian / máy tính chặt chẽ; nếu không thì chỉ là phiền toái GLMNET là thuật toán tiêu chuẩn vàng để ước tính các giải pháp mạng đàn hồi. Người dùng cung cấp một số giá trị của alpha, và nó sử dụng các thuộc tính đường dẫn của giải pháp quy tắc để nhanh chóng ước tính một gia đình của các mô hình cho một loạt các giá trị của các penalization cường độ λ , và nó thường có thể ước tính gia đình này của các giải pháp một cách nhanh chóng hơn ước tính chỉ một giải pháp cho một giá trị cụ λ . Vì vậy, có, sử dụng GLMNET không ký gửi bạn đến với miền của việc sử dụng phương pháp lưới kiểu (lặp trên một số giá trị của α và để GLMNET thử một loạt các λ s), nhưng nó khá nhanh.

  1. Yêu cầu: Cải thiện hiệu suất của lưới đàn hồi so với LASSO hoặc hồi quy sườn không được đảm bảo.

Điều này là đúng, nhưng ở bước mà người ta đang suy nghĩ nên sử dụng phương pháp nào, người ta sẽ không biết lưới đàn hồi, sườn hoặc LASSO nào là tốt nhất. Nếu một trong những lý do mà giải pháp tốt nhất phải là LASSO hoặc hồi quy sườn núi, thì chúng ta đang ở trong miền yêu cầu (1). Nếu chúng tôi vẫn không chắc chắn điều gì là tốt nhất, thì chúng tôi có thể kiểm tra các giải pháp LASSO, sườn và lưới đàn hồi và đưa ra lựa chọn mô hình cuối cùng tại thời điểm đó (hoặc, nếu bạn là một học giả, chỉ cần viết bài của bạn về cả ba ). Tình huống không chắc chắn trước này sẽ đặt chúng tôi vào miền khiếu nại (2), trong đó mô hình thực sự là LASSO / sườn núi nhưng chúng tôi không biết trước điều đó và chúng tôi vô tình chọn mô hình sai do siêu âm được xác định kém, hoặc lưới đàn hồi thực sự là giải pháp tốt nhất.

  1. Yêu cầu: Lựa chọn siêu tham số mà không xác thực chéo sẽ rất sai lệch và dễ bị lỗi .

Xác nhận mô hình phù hợp là một phần không thể thiếu của bất kỳ doanh nghiệp máy học nào. Xác thực mô hình thường là một bước đắt tiền, do đó, người ta sẽ tìm cách giảm thiểu sự thiếu hiệu quả ở đây - nếu một trong những sự thiếu hiệu quả đó là không cần thiết phải thử các giá trị α được biết là vô ích, thì một đề xuất có thể là làm như vậy. Có, bằng mọi cách hãy làm điều đó, nếu bạn cảm thấy thoải mái với tuyên bố mạnh mẽ rằng bạn đang thực hiện về cách sắp xếp dữ liệu của mình - nhưng chúng tôi sẽ quay lại lãnh thổ của yêu cầu (1) và yêu cầu (2).

2. Trực giác và toán học đằng sau lưới đàn hồi là gì?

Tôi thực sự khuyên bạn nên đọc tài liệu về các phương pháp này, bắt đầu với bài báo gốc trên lưới đàn hồi. Bài viết phát triển trực giác và toán học, và rất dễ đọc. Việc sao chép nó ở đây sẽ chỉ gây bất lợi cho lời giải thích của các tác giả. Nhưng tóm tắt cấp cao là lưới đàn hồi là một khoản lồi của sườn núi và hình phạt Lasso, vì vậy hàm mục tiêu cho một Gaussian vẻ mô hình báo lỗi như

Residual Mean Square Error+αRidge Penalty+(1α)LASSO Penalty

cho α[0,1].

Hui Zou và Trevor Hastie. "Chính quy hóa và lựa chọn biến qua mạng đàn hồi ." Thống kê JR. Soc., Tập 67 (2005), Phần 2., trang 301-320.

Richard Hardy chỉ ra rằng điều này được phát triển chi tiết hơn trong Hastie et al. "Các yếu tố của học thống kê" chương 3 và 18.

3. Nếu bạn thêm các chỉ tiêu Lq bổ sung thì sao?

Đây là một câu hỏi được đặt ra cho tôi trong các ý kiến:

L3γγ0L3

Tôi đánh giá cao tinh thần của câu hỏi là "Nếu nó như bạn yêu cầu và hai hình phạt là tốt, tại sao không thêm một hình phạt khác?" Nhưng tôi nghĩ rằng câu trả lời nằm ở lý do tại sao chúng ta thường xuyên ở nơi đầu tiên.

L1nnL2pL2p>n

Đặt một trong hai vấn đề này, mô hình chính quy vẫn có thể thực hiện mô hình ML vì các đặc tính co rút của các công cụ ước tính là "bi quan" và kéo các hệ số về 0.

L3

L1L2

L1L2

L2L1L1L2

LqL1L2


4
Nói rằng "lưới đàn hồi luôn được ưa thích hơn hồi quy lasso & sườn núi" có thể hơi quá mạnh. Trong các mẫu nhỏ hoặc trung bình, lưới đàn hồi không được chọn LASSO nguyên chất hoặc dung dịch sườn nguyên chất ngay cả khi cái trước hoặc cái sau thực sự là loại có liên quan. Với kiến ​​thức mạnh mẽ trước, có thể có ý nghĩa khi chọn LASSO hoặc sườn thay cho lưới đàn hồi. Tuy nhiên, nếu không có kiến ​​thức trước, lưới đàn hồi nên là giải pháp ưu tiên.
Richard Hardy

4
α

7
γγ0

5
L1L2L3

3
"Chúng tôi có thể kiểm tra các giải pháp LASSO, sườn và lưới đàn hồi và đưa ra lựa chọn mô hình cuối cùng" - tất nhiên, đó có thể là một quy trình mới, tối ưu hóa một tiêu chí chịu lỗi ngẫu nhiên, có thể hoặc không thể thực hiện tốt hơn hơn LASSo, hoặc hồi quy sườn, hoặc lưới đàn hồi đơn thuần.
Scortchi - Tái lập Monica

11

Tôi thường đồng ý với câu trả lời @Sycorax, nhưng tôi muốn thêm một số bằng cấp.

Nói rằng "lưới đàn hồi luôn được ưa thích hơn hồi quy lasso & sườn núi" có thể hơi quá mạnh. Trong các mẫu nhỏ hoặc trung bình, lưới đàn hồi không được chọn LASSO nguyên chất hoặc dung dịch sườn nguyên chất ngay cả khi cái trước hoặc cái sau thực sự là loại có liên quan. Với kiến ​​thức mạnh mẽ trước, có thể có ý nghĩa khi chọn LASSO hoặc sườn thay cho lưới đàn hồi. Tuy nhiên, nếu không có kiến ​​thức trước, lưới đàn hồi nên là giải pháp ưu tiên.

Ngoài ra, lưới đàn hồi đắt hơn về mặt tính toán so với LASSO hoặc sườn vì trọng lượng tương đối của LASSO so với sườn phải được chọn bằng xác nhận chéo. Nếu một lưới các giá trị alpha hợp lý là [0,1] với kích thước bước 0,1, điều đó có nghĩa là lưới đàn hồi đắt gấp khoảng 11 lần so với LASSO hoặc sườn núi. (Vì LASSO và sườn núi không có độ phức tạp tính toán hoàn toàn giống nhau, kết quả chỉ là phỏng đoán sơ bộ.)


1
Hoặc thực sự LASSO hoặc hồi quy sườn có thể không cải thiện hiệu suất dự đoán so với hồi quy không được đánh giá.
Scortchi - Phục hồi Monica

4
Loại kiến ​​thức nào trước đây sẽ khiến người ta thích Lasso hơn và loại kiến ​​thức nào trước đây sẽ khiến người ta thích sườn núi?
amip nói rằng Phục hồi Monica

4
@amoeba, nếu điều hợp lý là tất cả các biến hồi quy đều có liên quan, nhưng chúng có mối tương quan cao, thì không cần lựa chọn biến nào và do đó sườn núi có thể được ưa thích hơn. Mặt khác, nếu một số biến hồi quy có khả năng hoàn toàn không liên quan (nhưng chúng ta không biết cái nào) thì cần phải chọn biến và LASSO có thể được ưu tiên. Kiến thức này sẽ được lấy từ lĩnh vực vấn đề. Tôi nghĩ rằng có thể có một số ví dụ trong Hastie et al. "Các yếu tố của học thống kê" hoặc trong các tài liệu liên quan, tôi chỉ không nhớ mình đã đọc nó ở đâu.
Richard Hardy

1
@kjetilbhalvorsen, cảm ơn bạn, điều đó rất hữu ích.
Richard Hardy

1
.... tốt hơn khi 1 var chiếm ưu thế khác, trường hợp cổ điển là dữ liệu phân cấp: trong đó các hệ số nên được ước tính ở mức cao nhất trong phân cấp.
seanv507
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.