Tại sao lựa chọn tập hợp con tốt nhất không được ưa chuộng so với lasso?

Tôi đang đọc về lựa chọn tập hợp con tốt nhất trong các yếu tố của cuốn sách học thống kê. Nếu tôi có 3 dự đoán , tôi tạo tập con: $x_1,x_2,x_3$ $2^3=8$

Tập hợp con không có dự đoán
tập hợp con với bộ dự đoán $x_1$
tập hợp con với công cụ dự đoán $x_2$
tập hợp con với bộ dự đoán $x_3$
tập hợp con với các yếu tố dự đoán $x_1,x_2$
tập hợp con với các yếu tố dự đoán $x_1,x_3$
tập hợp con với các yếu tố dự đoán $x_2,x_3$
tập hợp con với các yếu tố dự đoán $x_1,x_2,x_3$

Sau đó, tôi kiểm tra tất cả các mô hình trên dữ liệu thử nghiệm để chọn mô hình tốt nhất.

Bây giờ câu hỏi của tôi là tại sao lựa chọn tập hợp con tốt nhất không được ưa chuộng so với lasso?

Nếu tôi so sánh các hàm ngưỡng của tập hợp con và lasso tốt nhất, tôi thấy rằng tập hợp con tốt nhất đặt một số hệ số về 0, như lasso. Nhưng, hệ số khác (khác không) sẽ vẫn có các giá trị ols, chúng sẽ không thiên vị. Trong khi đó, trong lasso, một số hệ số sẽ bằng 0 và các hệ số khác (khác không) sẽ có một số sai lệch. Hình dưới đây cho thấy nó tốt hơn:

Từ hình ảnh, một phần của đường màu đỏ trong trường hợp tập hợp con tốt nhất là nằm trên đường màu xám. Phần khác nằm trong trục x trong đó một số hệ số bằng không. Đường màu xám xác định các giải pháp không thiên vị. Trong lasso, một số sai lệch được giới thiệu bởi . Từ hình này tôi thấy rằng tập hợp con tốt nhất là tốt hơn lasso! Những nhược điểm của việc sử dụng tập hợp con tốt nhất là gì? $\lambda$

— Ville
nguồn

.. và các đường cong trông như thế nào khi tính ngẫu nhiên trong dữ liệu khiến bạn chọn một trong nhiều tập con sai và ước tính hệ số liên quan khác xa so với sai số chuẩn của chúng?

— Jbowman

@jbowman Tôi không hiểu rõ lắm, tại sao tính ngẫu nhiên trong dữ liệu lại khiến tôi chọn sai? Nếu tôi sử dụng xác nhận chéo để chọn tập hợp con tốt nhất, thì tôi sẽ có cơ hội nhỏ hơn để chọn tập hợp con sai.

— Ville

Bạn dường như đang đánh đồng "ít thiên vị" với "tốt hơn". Điều gì mang lại cho bạn để đặt một giá trị cao như vậy trên không thiên vị?

— Matthew Drury

Câu trả lời:

Trong lựa chọn tập hợp con, các tham số khác không sẽ không thiên vị nếu bạn đã chọn một siêu bộ của mô hình chính xác, nghĩa là, nếu bạn đã loại bỏ chỉ các dự đoán có giá trị hệ số thực bằng 0. Nếu quy trình lựa chọn của bạn khiến bạn loại trừ một người dự đoán có hệ số khác không thực sự, tất cả các ước tính hệ số sẽ bị sai lệch. Điều này đánh bại đối số của bạn nếu bạn đồng ý rằng lựa chọn thường không hoàn hảo.

Do đó, để đảm bảo "chắc chắn" cho ước tính mô hình không thiên vị, bạn nên sai ở khía cạnh bao gồm nhiều hơn, hoặc thậm chí tất cả các dự đoán có liên quan. Đó là, bạn không nên chọn tất cả.

Tại sao đây là một ý tưởng tồi? Bởi vì sự đánh đổi sai lệch. Có, mô hình lớn của bạn sẽ không thiên vị, nhưng nó sẽ có phương sai lớn và phương sai sẽ chi phối lỗi dự đoán (hoặc khác).

Do đó, tốt hơn là chấp nhận rằng các ước tính tham số sẽ bị sai lệch nhưng có phương sai thấp hơn (chính quy hóa), thay vì hy vọng rằng lựa chọn tập hợp con của chúng tôi chỉ loại bỏ các tham số 0 thực sự để chúng tôi có một mô hình không thiên vị với phương sai lớn hơn.

Vì bạn viết rằng bạn đánh giá cả hai cách tiếp cận bằng cách sử dụng xác nhận chéo, điều này giảm nhẹ một số lo ngại ở trên. Một vấn đề còn lại cho Tập hợp con tốt nhất vẫn là: nó ràng buộc một số tham số chính xác bằng 0 và cho phép các tham số khác trôi nổi tự do. Vì vậy, có một sự gián đoạn trong ước tính, sẽ không có nếu chúng ta điều chỉnh lasso vượt quá điểm trong đó một yếu tố dự đoán được bao gồm hoặc loại trừ. Giả sử rằng cross-validation kết quả đầu ra một "tối ưu" đó là gần với , vì vậy chúng tôi về cơ bản không chắc liệu p nên được bao gồm hoặc không. Trong trường hợp này, tôi cho rằng nó có ý nghĩa hơn để hạn chế các tham số ước lượng $\lambda$ $\lambda_0$ $p$ $\lambda$ $\lambda_0$ $\hat{\beta}_p$ qua Lasso đến một giá trị nhỏ (tuyệt đối), chứ không phải là một trong hai hoàn toàn loại trừ , hoặc để cho nó trôi nổi tự , như xuất sắc nhất tập hợp con thực hiện. $\hat{\beta}_p=0$ $\hat{\beta}_p=\hat{\beta}_p^{\text{OLS}}$

Điều này có thể hữu ích: Tại sao co rút hoạt động?

— Stephan Kolass
nguồn

Hừm. Tôi không nghĩ câu trả lời này tại sao tập hợp con tốt nhất lại tệ hơn lasso (đây là câu hỏi chính ở đây).

— amip nói phục hồi Monica

@amoeba: bạn có muốn giải thích không?

— Stephan Kolassa

Chà, tôi hiểu câu hỏi là hỏi tại sao lasso lại được ưu tiên cho tập hợp con tốt nhất. Hãy tưởng tượng chúng ta đặt cả hai vào một vòng xác thực chéo, và sau đó điều chỉnh tham số Lasso hoặc tìm tập hợp con tốt nhất. Lasso thường được đề nghị. Tôi hiểu câu hỏi như hỏi Tại sao? (xem ví dụ tiêu đề của Q) và tôi không chắc câu trả lời của bạn thực sự trả lời điều đó. Hay tôi đã hiểu nhầm câu trả lời của bạn?

— amip nói phục hồi Monica

Một vấn đề còn lại để xuất sắc nhất tập hợp con là nó làm hạn chế một số thông số để được chính xác không và cho phép những người khác nổi tự do, vì vậy có một gián đoạn trong dự toán, mà không phải là ở đó nếu chúng ta tinh chỉnh Lasso

vượt quá một điểm

, nơi một dự đoán

được bao gồm hoặc loại trừ. Tôi cho rằng nếu chúng ta về cơ bản không chắc liệu

nên được bao gồm hay không, bởi vì

, sau đó nó làm cho ý nghĩa hơn để hạn chế các tham số ước lượng

qua Lasso, chứ không phải để cho nó trôi nổi tự do.

λ

$\lambda$

λ_{0}

$\lambda_0$

p

$p$

p

$p$

λ \approx λ_{0}

$\lambda\approx\lambda_0$

{\hat{β}}_{p}

$\hat{\beta}_p$

— Stephan Kolassa

Đồng ý rằng câu trả lời này không thực sự trả lời câu hỏi - Tôi đã thêm phần của mình vào phần này bên dưới ...

— Tom Wenseleers

Về nguyên tắc, nếu có thể tìm thấy tập hợp con tốt nhất, thì nó thực sự tốt hơn LASSO, về mặt (1) chọn các biến thực sự đóng góp cho phù hợp, (2) không chọn các biến không đóng góp cho phù hợp, (3) độ chính xác dự đoán và (4) tạo ra các ước tính không thiên vị cho các biến được chọn. Một bài báo gần đây đã tranh luận về chất lượng vượt trội của tập hợp con tốt nhất so với LASSO là bởi Bertsimas et al (2016) "Lựa chọn tập hợp con tốt nhất thông qua một ống kính tối ưu hóa hiện đại" . Một ví dụ khác đưa ra một ví dụ cụ thể (về việc giải mã các đoàn tàu tăng tốc) trong đó tập hợp con tốt nhất tốt hơn LASSO hoặc sườn núi là của de Rooi & Eilers (2011).

$L_0$ $L_1$ $L_0$ $L_q$ Nguyên tắc hồi quy bị phạt với q gần bằng 0 về nguyên tắc sẽ gần với lựa chọn tập hợp con tốt nhất so với LASSO, nhưng đây không còn là vấn đề tối ưu hóa lồi, và do đó khá khó để phù hợp ).

Để giảm sự thiên vị của LASSO, người ta có thể sử dụng các phương pháp tiếp cận đa cấp có nguồn gốc, chẳng hạn như LASSO thích ứng (trong đó các hệ số bị phạt khác nhau dựa trên ước tính trước từ một bình phương nhỏ nhất hoặc phù hợp với hồi quy sườn) hoặc LASSO thoải mái (một giải pháp đơn giản được thực hiện bình phương nhỏ nhất phù hợp với các biến được chọn bởi LASSO). So với tập hợp con tốt nhất, LASSO có xu hướng chọn hơi quá nhiều biến. Lựa chọn tập hợp con tốt nhất là tốt hơn, nhưng khó hơn để phù hợp.

$L_0$ cung cấp một so sánh rộng rãi về tập hợp con tốt nhất, LASSO và một số biến thể LASSO như LASSO thoải mái, và họ cho rằng LASSO thoải mái là thứ tạo ra độ chính xác dự đoán mô hình cao nhất trong phạm vi rộng nhất, nghĩa là họ đã đi đến một kết luận khác Bertsimas. Nhưng kết luận về điều tốt nhất phụ thuộc rất nhiều vào những gì bạn cho là tốt nhất (ví dụ: độ chính xác dự đoán cao nhất hoặc tốt nhất trong việc chọn ra các biến có liên quan và không bao gồm các biến không liên quan; hồi quy sườn, ví dụ, thường chọn quá nhiều biến nhưng độ chính xác dự đoán cho các trường hợp với biến cộng tuyến cao tuy nhiên có thể thực sự tốt).

Đối với một vấn đề rất nhỏ với 3 biến như bạn mô tả, rõ ràng lựa chọn tập hợp con tốt nhất là tùy chọn ưa thích mặc dù.

— Tom Wenseleers
nguồn

"Tốt hơn" có nghĩa là gì trong cụm từ "nó tốt hơn lasso"?

— Matthew Drury

k

$k$

λ

$\lambda$

k

$k$

k

$k$

k

$k$

Chỉnh sửa câu trả lời của tôi một chút để cung cấp thêm một số chi tiết ...

— Tom Wenseleers

Tôi không nghĩ bất kỳ câu trả lời nào đang giải quyết vấn đề ổn định. Giống như từng bước và tất cả các hồi quy tập hợp con có thể, lassonổi tiếng là không ổn định. Nói cách khác, nếu bạn khởi động lại toàn bộ quá trình, bạn sẽ thấy quá nhiều sự tùy tiện trong danh sách các tính năng được chọn.

— Frank Harrell

Có, các biến được chọn bởi LASSO có thể không ổn định, và điều này thậm chí còn nhiều hơn cho trường hợp hồi quy tập hợp con tốt nhất - hồi quy mạng đàn hồi tốt hơn một chút về mặt này - có xu hướng bao gồm quá nhiều biến sau đó, nhưng được chọn nhiều hơn cách ổn định, và có thể đưa ra độ chính xác dự đoán tốt hơn trong cộng tuyến cao. Nhưng rất nhiều phụ thuộc vào tiêu chí quan trọng nhất cho ứng dụng của bạn - độ chính xác dự đoán, tỷ lệ dương tính giả bao gồm các biến không liên quan hoặc tỷ lệ âm tính giả không bao gồm các biến có liên quan cao ...

— Tom Wenseleers