Độ thưa thớt bằng cách loại bỏ hệ số bình phương nhỏ nhất

14

Giả sử tôi muốn hồi quy $Y$ chống lại bình thường $X$ , nhưng tôi muốn một giải pháp thưa thớt. Sau khi hồi quy, tại sao loại bỏ các hệ số với cường độ nhỏ nhất không được phép?

Đối với hồ sơ, tôi đã nghe nói và thường sử dụng các phương pháp LARS và LASSO. Tôi chỉ tò mò tại sao cách tiếp cận trên không được áp dụng.

regression regression-coefficients

— Cam.Davidson.Pilon
nguồn

2

+1 Những câu hỏi đơn giản này có thể khó - chúng khiến người ta phải suy nghĩ kỹ về các khái niệm cơ bản.

— whuber

14

Sẽ không có vấn đề gì nếu là trực giao. Tuy nhiên, khả năng tương quan mạnh mẽ giữa các biến giải thích sẽ khiến chúng ta tạm dừng. $X$

Khi bạn xem xét việc giải thích hình học của hồi quy bình phương nhỏ nhất , các phản mẫu rất dễ xảy ra. Lấy để có các hệ số phân phối gần như bình thường và gần như song song với nó. Đặt trực giao với mặt phẳng do và . Chúng ta có thể hình dung một chủ yếu theo hướng , nhưng đã bị dịch chuyển một lượng tương đối nhỏ so với gốc trong mặt phẳng . Vì $X_1$ $X_2$ $X_3$ $X_1$ $X_2$ $Y$ $X_3$ $X_1,X_2$ $X_1$ và gần như song song, các thành phần của nó trong mặt phẳng đó có thể có cả hai hệ số lớn, khiến chúng ta bỏ , đó sẽ là một sai lầm rất lớn. $X_2$ $X_3$

Hình học có thể được tạo lại bằng một mô phỏng, chẳng hạn như được thực hiện bởi các Rtính toán sau:

set.seed(17)
x1 <- rnorm(100)               # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1   # Almost parallel to x1
x3 <- rnorm(100)               # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005        # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e  
summary(lm(y ~ x1 + x2 + x3))  # The full model
summary(lm(y ~ x1 + x2))       # The reduced ("sparse") model

Phương sai của đủ gần với để chúng ta có thể kiểm tra các hệ số của sự phù hợp dưới dạng proxy cho các hệ số được tiêu chuẩn hóa. Trong mô hình đầy đủ, các hệ số là 0,99, -0,99 và 0,1 (tất cả đều có ý nghĩa cao), với mức nhỏ nhất (tính đến nay) liên quan đến , theo thiết kế. Các lỗi tiêu chuẩn còn lại là 0,00498. Trong mô hình giảm ("thưa thớt"), sai số chuẩn còn lại, ở mức 0,09804, lớn hơn lần: tăng rất lớn, phản ánh sự mất gần như tất cả thông tin về từ việc bỏ biến với hệ số chuẩn hóa nhỏ nhất. Các đã giảm từ $X_i$ $1$ $X_3$ $20$ $Y$ $R^2$ $0.9975$ gần như bằng không. Không có hệ số nào là đáng kể ở mức tốt hơn mức . $0.38$

Ma trận phân tán cho thấy tất cả:

Scatterplot matrix of x1, x2, x3, and y

Mối tương quan mạnh mẽ giữa và là rõ ràng từ sự sắp xếp tuyến tính của các điểm ở phía dưới bên phải. Mối tương quan kém giữa và và và rõ ràng như nhau từ sự phân tán tròn trong các bảng khác. Tuy nhiên, hệ số chuẩn hóa nhỏ nhất thuộc về thay vì hoặc . $x_3$ $y$ $x_1$ $y$ $x_2$ $y$ $x_3$ $x_1$ $x_2$

— whuber
nguồn

2

Dường như với tôi rằng nếu một hệ số ước tính gần bằng 0 và dữ liệu được chuẩn hóa thì dự đoán sẽ không bị tổn thương bằng cách loại bỏ biến. Chắc chắn nếu hệ số này không có ý nghĩa thống kê thì dường như không có vấn đề gì. Nhưng điều này phải được thực hiện một cách cẩn thận. Các IV có thể tương quan và loại bỏ một có thể thay đổi hệ số của những người khác. Điều này trở nên nguy hiểm hơn nếu bạn bắt đầu lưu lại một số biến theo cách này. Các quy trình lựa chọn tập hợp con được thiết kế để tránh các vấn đề như vậy và sử dụng các tiêu chí hợp lý để bao gồm và loại trừ các biến. Nếu bạn hỏi Frank Harrell, anh ta sẽ chống lại các thủ tục từng bước. Bạn đề cập đến LARS và LASSO là hai phương pháp rất hiện đại. Nhưng có rất nhiều thứ khác Bao gồm các tiêu chí thông tin cho phép giới thiệu quá nhiều biến số.

Nếu bạn thử một quy trình lựa chọn tập hợp con đã được nghiên cứu kỹ lưỡng với nhiều tài liệu về nó, bạn có thể sẽ thấy rằng nó sẽ dẫn đến một giải pháp giúp điều chỉnh lại các biến có hệ số nhỏ, đặc biệt nếu chúng thất bại trong bài kiểm tra vì khác biệt đáng kể về mặt thống kê so với 0.

— Michael R. Chernick
nguồn