Sẽ không có vấn đề gì nếu là trực giao. Tuy nhiên, khả năng tương quan mạnh mẽ giữa các biến giải thích sẽ khiến chúng ta tạm dừng.X
Khi bạn xem xét việc giải thích hình học của hồi quy bình phương nhỏ nhất , các phản mẫu rất dễ xảy ra. Lấy để có các hệ số phân phối gần như bình thường và X 2 gần như song song với nó. Đặt X 3 trực giao với mặt phẳng do X 1 và X 2 tạo ra . Chúng ta có thể hình dung một Y chủ yếu theo hướng X 3 , nhưng đã bị dịch chuyển một lượng tương đối nhỏ so với gốc trong mặt phẳng X 1 , X 2 . Vì X 1 XX1X2X3X1X2YX3X1,X2X1 và gần như song song, các thành phần của nó trong mặt phẳng đó có thể có cả hai hệ số lớn, khiến chúng ta bỏ X 3 , đó sẽ là một sai lầm rất lớn.X2X3
Hình học có thể được tạo lại bằng một mô phỏng, chẳng hạn như được thực hiện bởi các R
tính toán sau:
set.seed(17)
x1 <- rnorm(100) # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1 # Almost parallel to x1
x3 <- rnorm(100) # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005 # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e
summary(lm(y ~ x1 + x2 + x3)) # The full model
summary(lm(y ~ x1 + x2)) # The reduced ("sparse") model
Phương sai của đủ gần với 1 để chúng ta có thể kiểm tra các hệ số của sự phù hợp dưới dạng proxy cho các hệ số được tiêu chuẩn hóa. Trong mô hình đầy đủ, các hệ số là 0,99, -0,99 và 0,1 (tất cả đều có ý nghĩa cao), với mức nhỏ nhất (tính đến nay) liên quan đến X 3 , theo thiết kế. Các lỗi tiêu chuẩn còn lại là 0,00498. Trong mô hình giảm ("thưa thớt"), sai số chuẩn còn lại, ở mức 0,09804, lớn hơn 20 lần: tăng rất lớn, phản ánh sự mất gần như tất cả thông tin về Y từ việc bỏ biến với hệ số chuẩn hóa nhỏ nhất. Các R 2 đã giảm từ 0,9975Xi1X320YR20.9975gần như bằng không. Không có hệ số nào là đáng kể ở mức tốt hơn mức .0.38
Ma trận phân tán cho thấy tất cả:
Mối tương quan mạnh mẽ giữa và y là rõ ràng từ sự sắp xếp tuyến tính của các điểm ở phía dưới bên phải. Mối tương quan kém giữa x 1 và y và x 2 và y rõ ràng như nhau từ sự phân tán tròn trong các bảng khác. Tuy nhiên, hệ số chuẩn hóa nhỏ nhất thuộc về x 3 thay vì x 1 hoặc x 2 .x3yx1yx2yx3x1x2