Sự vượt trội của LASSO so với lựa chọn chuyển tiếp / loại bỏ lùi về mặt lỗi dự đoán xác thực chéo của mô hình


10

Tôi đã thu được ba mô hình giảm từ một mô hình đầy đủ ban đầu bằng cách sử dụng

  • lựa chọn chuyển tiếp
  • loại bỏ lạc hậu
  • Kỹ thuật xử phạt L1 (LASSO)

Đối với các mô hình thu được bằng cách sử dụng lựa chọn chuyển tiếp / loại bỏ lùi, tôi đã thu được ước tính xác thực chéo của lỗi dự đoán bằng cách sử dụng CVlmtrong gói DAAGcó sẵn trong R. Đối với mô hình được chọn qua LASSO, tôi đã sử dụng cv.glm.

Lỗi dự đoán cho LASSO ít hơn so với các lỗi thu được cho những người khác. Vì vậy, mô hình thu được thông qua LASSO dường như tốt hơn về khả năng dự đoán và tính biến đổi của nó. Đây có phải là một hiện tượng chung luôn xảy ra hay nó là vấn đề cụ thể? Lý do lý thuyết cho điều này là gì nếu đây là một hiện tượng chung?


3
Đảm bảo rằng bạn không sử dụng quy tắc chấm điểm chính xác không chính xác, chẳng hạn như tỷ lệ được phân loại chính xác, vì phần thưởng này dự đoán / mô hình không phù hợp. Và so sánh với định mức L2. Tôi cá là nó sẽ tốt hơn sau 3 cách bạn đã thử.
Frank Mitchell

Câu trả lời:


16

Cả LASSO và lựa chọn mô hình tiến / lùi đều có điểm mạnh và hạn chế. Không có khuyến nghị sâu rộng có thể được thực hiện. Mô phỏng luôn có thể được khám phá để giải quyết điều này.

pnpn

Quá mức được khắc phục bằng cách sử dụng xác nhận chéo mẫu (CV) để đánh giá mô hình. Vì bạn không mô tả điều này, tôi cho rằng bạn đã không làm điều đó. Không giống như lựa chọn mô hình từng bước, LASSO sử dụng tham số điều chỉnh để xử phạt số lượng tham số trong mô hình. Bạn có thể sửa tham số điều chỉnh hoặc sử dụng quy trình lặp phức tạp để chọn giá trị này. Theo mặc định , LASSO thực hiện sau. Điều này được thực hiện với CV để giảm thiểu MSE dự đoán. Tôi không biết về bất kỳ triển khai lựa chọn mô hình từng bước nào sử dụng các kỹ thuật tinh vi như vậy, ngay cả BIC làm tiêu chí cũng sẽ bị sai lệch xác nhận nội bộ. Theo tài khoản của tôi, điều đó tự động mang lại cho LASSO đòn bẩy trong việc lựa chọn mô hình từng bước "ngoài luồng".

Cuối cùng, lựa chọn mô hình từng bước có thể có các tiêu chí khác nhau để bao gồm / loại trừ các biến hồi quy khác nhau. Nếu bạn sử dụng giá trị p cho thử nghiệm Wald của các tham số mô hình cụ thể hoặc mô hình kết quả R ^ 2, bạn sẽ không làm tốt, chủ yếu là do sai lệch xác thực nội bộ (một lần nữa, có thể được khắc phục bằng CV). Tôi thấy ngạc nhiên khi đây vẫn là cách các mô hình như vậy có xu hướng được thực hiện. AIC hoặc BIC là những tiêu chí tốt hơn nhiều để lựa chọn mô hình.

Có một số vấn đề với mỗi phương pháp. Các vấn đề của lựa chọn mô hình từng bước được hiểu rõ hơn và tồi tệ hơn nhiều so với các vấn đề của LASSO. Vấn đề chính tôi thấy với câu hỏi của bạn là bạn đang sử dụng các công cụ lựa chọn tính năng để đánh giá dự đoán . Chúng là những nhiệm vụ riêng biệt. LASSO tốt hơn cho lựa chọn tính năng hoặc lựa chọn mô hình thưa thớt. Hồi quy sườn có thể đưa ra dự đoán tốt hơn vì nó sử dụng tất cả các biến.

pn

pn


4

Bạn muốn chọn một tập hợp con của các yếu tố dự đoán theo một số tiêu chí. Có thể là AIC mẫu hoặc R ^ 2 được điều chỉnh hoặc xác thực chéo, không thành vấn đề.

Bạn có thể kiểm tra mọi kết hợp tập hợp con dự đoán duy nhất và chọn tập hợp con tốt nhất. Tuy nhiên

  • Rất tốn thời gian do sự bùng nổ của các tham số kết hợp.
  • Hoạt động nếu bạn có nhiều tham số hơn các quan sát theo nghĩa là bạn kiểm tra tất cả các kết hợp dự đoán đưa ra giải pháp

Bạn có thể sử dụng lựa chọn chuyển tiếp từng bước

  • Ít tốn thời gian hơn, nhưng có thể không có được sự kết hợp tuyệt đối tốt nhất, đặc biệt. khi các yếu tố dự đoán tương quan (có thể chọn một yếu tố dự đoán và không thể cải thiện thêm khi thêm 2 yếu tố dự đoán khác sẽ cho thấy sự cải thiện)
  • Hoạt động ngay cả khi bạn có nhiều tham số hơn quan sát

Bạn có thể sử dụng loại bỏ lạc hậu

  • Không hoạt động nếu bạn có nhiều tham số hơn các quan sát, không có điểm khởi đầu tốt duy nhất (về lý thuyết bạn có thể bắt đầu từ tất cả các điểm bắt đầu hợp lệ, làm việc ngược lại, chọn điểm tốt nhất, nhưng đó không phải là điều thường có nghĩa là loại bỏ ngược)
  • Giống như chuyển tiếp từng bước, ít tốn thời gian hơn tất cả các tập hợp con, nhưng có thể không có được sự kết hợp tuyệt đối tốt nhất, đặc biệt. khi các yếu tố dự đoán có tương quan

Bạn có thể sử dụng LASSO

  • Hoạt động ngay cả khi bạn có nhiều tham số hơn quan sát
  • CPU hiệu quả khi bạn có nhiều tham số và sự bùng nổ tổ hợp của các tập hợp con
  • Thêm chính quy

Đối với câu hỏi của bạn về lý do tại sao LASSO hoạt động tốt hơn trên dữ liệu của bạn trong CV

  • Một khả năng là sự phụ thuộc đường dẫn được mô tả ở trên - LASSO có thể tìm thấy một tập hợp con tốt hơn. Có lẽ nó đã gặp may, có lẽ LASSO nói chung / đôi khi có được các tập con tốt hơn, tôi không chắc chắn. Có lẽ có tài liệu về chủ đề này.
  • Một khả năng khác (nhiều khả năng hơn) là việc chính quy hóa LASSO ngăn ngừa quá mức, do đó LASSO hoạt động tốt hơn trong CV / ngoài mẫu.

Tóm lại, LASSO cung cấp cho bạn sự lựa chọn tập hợp con thường xuyên và hiệu quả, đặc biệt là khi bạn có rất nhiều dự đoán.

BTW bạn có thể thực hiện LASSO và chọn mô hình của mình bằng CV (phổ biến nhất) nhưng cũng sử dụng AIC hoặc một số tiêu chí khác. Chạy mô hình của bạn với chuẩn hóa L1 và không ràng buộc, sau đó dần dần thắt chặt ràng buộc cho đến khi AIC đạt đến mức tối thiểu, hoặc lỗi CV hoặc tiêu chí bạn chọn. Xem http://scikit-learn.org/urdy/auto_examples/linear_model/plot_lasso_model_selection.html

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.