Đây chính xác là những gì bạn sẽ thấy.
Bạn thấy chính xác điều tương tự với mô hình hồi quy thông thường; nếu mô hình có cao hơn 0, phần dư có tương quan với đáp ứng. Đó là các giá trị được trang bị mà phần dư không tương thích.R2
Cụ thể, mỗi hồi quy nắm bắt tất cả các biến thể trong giải thích bởi các yếu tố dự đoán. Làm điều đó có nghĩa là không tương thích với phần dư - bởi vì nếu nó không được sửa chữa, sẽ có biến thể không được đánh dấu mà 'có thể nắm bắt được. Kết quả của việc nắm bắt mọi thứ mà có thể chụp trong mô hình hồi quy, phải có mối tương quan của phần dư với các giá trị thực tế :yy^xxy
Cov ( y, y-y^) = Cov ( y-y^, y-y^) + Cov (y^, y-y^) = Var ( y-y^) + 0 =σ2
- vì hiệp phương sai đó là dương, nên mối tương quan sẽ là.
Chính quy hóa thay đổi mọi thứ một chút nhưng cùng một mối tương quan xuất hiện.
[Thành phần của không được mô hình hóa, ngay cả khi đó chỉ là tiếng ồn thuần túy, rõ ràng là tương quan với chính nó . Đó thực sự là tất cả những gì chúng ta đang thấy ở đây]y
Một mối tương quan như vậy sẽ có mặt trong mỗi một hồi quy, và do đó, mối tương quan sẽ mang đến toàn bộ khu rừng ngẫu nhiên.
Không có gì để sửa ở đây, nó thực sự phải làm điều đó. Bạn thấy nó ngay cả khi bạn phù hợp chính xác với mô hình đã tạo dữ liệu của bạn.
x = rbeta(1000,1.8,1.8)*20+5 # make some x variable
y = 0.8+0.3*x+rnorm(1000,0,1.5) # simulate a regression model
lmfit = lm(y~x) # fit the true regression model
plot(y,lmfit$residual) # voila! $
cor(y,lmfit$residual)
Bạn sẽ thấy một mối tương quan trong vùng lân cận 70% cho ví dụ này.
Trong thực tế nếu bạn tăng phương sai của thuật ngữ tiếng ồn (những thứ khác bằng nhau), mối tương quan sẽ mạnh hơn . Hãy thử những điều trên với nhiều tiếng ồn hơn:
y = 0.8+0.3*x+rnorm(1000,0,2.5) # simulate a regression model
và hãy xem chuyện gì xảy ra!
Có thể là bạn sẽ muốn hỏi một câu hỏi khác giải thích vấn đề ban đầu mà bạn đang cố gắng giải quyết, bởi vì sự lựa chọn của bạn về cách giải quyết nó có thể không lý tưởng (thật khó để nói từ những gì ở đây).