Tại sao Lasso hoặc ElasticNet hoạt động tốt hơn so với Ridge khi các tính năng tương quan


16

Tôi có một bộ gồm 150 tính năng và nhiều trong số chúng có mối tương quan cao với nhau. Mục tiêu của tôi là dự đoán giá trị của một biến rời rạc, có phạm vi là 1-8 . Cỡ mẫu của tôi là 550 và tôi đang sử dụng xác thực chéo 10 lần .

AFAIK, trong số các phương pháp chính quy hóa (Lasso, ElasticNet và Ridge), Ridge khắt khe hơn về mối tương quan giữa các tính năng. Đó là lý do tại sao tôi mong đợi rằng với Ridge, tôi sẽ có được một dự đoán chính xác hơn. Tuy nhiên, kết quả của tôi cho thấy rằng sai số tuyệt đối trung bình của Lasso hoặc Đàn hồi là khoảng 0,61 trong khi điểm này là 0,97 cho hồi quy sườn. Tôi tự hỏi điều gì sẽ là một lời giải thích cho điều này. Đây có phải là vì tôi có nhiều tính năng và Lasso hoạt động tốt hơn vì nó tạo ra một loại lựa chọn tính năng, loại bỏ các tính năng dư thừa?


1
Tại sao bạn nghĩ sườn núi nên thực hiện tốt hơn? cỡ mẫu của bạn là bao nhiêu?
bdeonovic

1
"Nghiêm ngặt hơn để hồi quy" nghĩa là gì?
bdeonovic

Câu trả lời:


20

Giả sử bạn có hai biến dự đoán tương quan cao và giả sử cả hai biến được căn giữa và tỷ lệ (có nghĩa là không, phương sai một). Sau đó, hình phạt sườn núi trên vector tham số là β 2 1 + β 2 2 trong khi hạn phạt Lasso là | β 1 | + | β 2 | . Bây giờ, do mô hình được cho là rất cao, do đó xz ít nhiều có thể thay thế nhau trong dự đoán Y , do đó, rất nhiều tổ hợp tuyến tính của x , z trong đó chúng ta chỉ cần thay thế một phầnx,zβ12+β22β1+β2xzYx,z đối với z , sẽ hoạt động tương tự như các yếu tố dự đoán, ví dụ 0,2 x + 0,8 x , 0,3 x + 0,7 z hoặc 0,5 x + 0,5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5zsẽ tốt như nhau như dự đoán. Bây giờ hãy xem ba ví dụ này, hình phạt Lasso trong cả ba trường hợp đều bằng nhau, đó là 1, trong khi hình phạt sườn núi khác nhau, tương ứng là 0,68, 0,58, 0,5, vì vậy hình phạt sườn núi sẽ thích trọng số của các biến colinear bằng nhau trong khi hình phạt lasso sẽ không thể chọn. Đây là một lý do sườn núi (hay nói chung hơn là lưới đàn hồi, là sự kết hợp tuyến tính của hình phạt lasso và sườn núi) sẽ hoạt động tốt hơn với các công cụ dự đoán colinear: Khi dữ liệu đưa ra ít lý do để lựa chọn giữa các kết hợp tuyến tính khác nhau của các công cụ dự đoán colinear, lasso sẽ chỉ "Đi lang thang" trong khi sườn núi có xu hướng chọn trọng số bằng nhau. Điều cuối cùng có thể là một dự đoán tốt hơn để sử dụng với dữ liệu trong tương lai! Và, nếu đó là như vậy với dữ liệu hiện tại, có thể hiển thị trong xác thực chéo là kết quả tốt hơn với sườn núi.

Chúng ta có thể xem điều này theo một cách bay bổng: Ridge và lasso ngụ ý các thông tin trước khác nhau, và thông tin trước được ngụ ý bởi sườn núi có xu hướng hợp lý hơn trong các tình huống như vậy. .


4
Điểm tốt về khả năng sườn núi hoạt động tốt hơn trên dữ liệu trong tương lai. Sự khác biệt giữa lỗi về xác thực chéo trong dữ liệu hiện tại và tính hữu ích của dữ liệu mới là quá thường xuyên bị bỏ qua. Đối với một số ước tính sau này, OP có thể lặp lại toàn bộ các quy trình xây dựng mô hình LASSO, mạng đàn hồi và mô hình sườn trên nhiều mẫu dữ liệu bootstrap của dữ liệu và sau đó kiểm tra lỗi khi áp dụng cho tập dữ liệu đầy đủ. Điều đó ít nhất kiểm tra quá trình xây dựng mô hình.
EdM

Nó không rõ ràng với tôi tại sao nó sẽ có lợi khi chọn trọng số bằng nhau cho dữ liệu cộng tuyến? Ai đó có thể giải thích về điểm đó?
Ramon Martinez

3

sự khác biệt quan trọng nhất giữa lasso và sườn núi là lasso tự nhiên đưa ra lựa chọn, đặc biệt là các hiệp phương sai rất tương quan. Không thể thực sự chắc chắn nếu không nhìn thấy các hệ số được trang bị, nhưng thật dễ dàng để nghĩ rằng trong số các tính năng tương quan đó, nhiều tính năng đơn giản là vô dụng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.