Hồi quy rừng ngẫu nhiên - phần dư tương quan với đáp ứng


9

Tôi đang cố gắng sử dụng hồi quy Rừng ngẫu nhiên. Tôi có một biến trả lời:

y = rnorm(10000, mean=0, sd=3)

Và một vài biến dự đoán (chỉ là phản ứng có thêm nhiễu):

x = data.frame(v1=y + rnorm(10000, mean=0, sd=3), v2=y + rnorm(10000, mean=0, sd=3), v3=y + rnorm(10000, mean=0, sd=3))

Tôi xây dựng rừng ngẫu nhiên:

r = randomForest(x, y)

Mô hình là tốt, giải thích ~ 73% phương sai. Tuy nhiên, khi tôi nhìn vào phần dư:

plot(y, y - r$predicted)

Thay vì tập trung quanh 0, phần dư tương quan với biến trả lời

Thay vì tập trung quanh 0, chúng có tương quan với biến trả lời. Có vẻ như mô hình nên sửa điều này. Có lẽ, vì mỗi dự đoán OOB là trung bình, hành vi này là một loại "hồi quy trung bình"? Có ai biết tại sao điều này xảy ra? Có bất cứ điều gì tôi có thể làm về nó?

Tôi đang cố gắng xây dựng một mô hình và sử dụng phần dư để ước tính một cái gì đó. Ngay bây giờ, chúng vô dụng vì chúng chỉ phản ánh giá trị mà tôi đang cố gắng dự đoán. Nếu bất cứ ai có thể giúp đỡ, tôi thực sự đánh giá cao nó!


"Xiên" có một ý nghĩa đặc biệt trong thống kê. Có thể tốt hơn để làm cho tiêu đề một cái gì đó như "Hồi quy rừng ngẫu nhiên - phần dư tương quan với phản ứng". Tôi sẽ thực hiện thay đổi đó nhưng nếu bạn muốn nó nói điều gì đó khác biệt, bạn luôn có thể chỉnh sửa lại.
Glen_b -Reinstate Monica

Tôi nghĩ rằng các lô dư được vẽ cho các giá trị được trang bị (x) so với các số dư (y-yhat).
Seema Mudgil

Bạn muốn vẽ các phần dư của mô hình trên y dưới dạng hàm của các giá trị dự đoán của mô hình trên x. Không nên có mối tương quan ở đây và nếu có, bạn vi phạm giả định về tính đồng nhất trong OLS.
colin

Câu trả lời:


8

Đây chính xác là những gì bạn sẽ thấy.

Bạn thấy chính xác điều tương tự với mô hình hồi quy thông thường; nếu mô hình có cao hơn 0, phần dư có tương quan với đáp ứng. Đó là các giá trị được trang bị mà phần dư không tương thích.R2

Cụ thể, mỗi hồi quy nắm bắt tất cả các biến thể trong giải thích bởi các yếu tố dự đoán. Làm điều đó có nghĩa là không tương thích với phần dư - bởi vì nếu nó không được sửa chữa, sẽ có biến thể không được đánh dấu mà 'có thể nắm bắt được. Kết quả của việc nắm bắt mọi thứ mà có thể chụp trong mô hình hồi quy, phải có mối tương quan của phần dư với các giá trị thực tế :yy^xxy

Cov(y,y-y^)= =Cov(y-y^,y-y^)+Cov(y^,y-y^)= =Var(y-y^)+0= =σ2

- vì hiệp phương sai đó là dương, nên mối tương quan sẽ là.

Chính quy hóa thay đổi mọi thứ một chút nhưng cùng một mối tương quan xuất hiện.

[Thành phần của không được mô hình hóa, ngay cả khi đó chỉ là tiếng ồn thuần túy, rõ ràng là tương quan với chính nó . Đó thực sự là tất cả những gì chúng ta đang thấy ở đây]y

Một mối tương quan như vậy sẽ có mặt trong mỗi một hồi quy, và do đó, mối tương quan sẽ mang đến toàn bộ khu rừng ngẫu nhiên.

Không có gì để sửa ở đây, nó thực sự phải làm điều đó. Bạn thấy nó ngay cả khi bạn phù hợp chính xác với mô hình đã tạo dữ liệu của bạn.

 x = rbeta(1000,1.8,1.8)*20+5     # make some x variable
 y = 0.8+0.3*x+rnorm(1000,0,1.5)  # simulate a regression model
 lmfit = lm(y~x)                  # fit the true regression model
 plot(y,lmfit$residual)           # voila!                             $
 cor(y,lmfit$residual)

nhập mô tả hình ảnh ở đây

Bạn sẽ thấy một mối tương quan trong vùng lân cận 70% cho ví dụ này.

Trong thực tế nếu bạn tăng phương sai của thuật ngữ tiếng ồn (những thứ khác bằng nhau), mối tương quan sẽ mạnh hơn . Hãy thử những điều trên với nhiều tiếng ồn hơn:

 y = 0.8+0.3*x+rnorm(1000,0,2.5)  # simulate a regression model

và hãy xem chuyện gì xảy ra!

Có thể là bạn sẽ muốn hỏi một câu hỏi khác giải thích vấn đề ban đầu mà bạn đang cố gắng giải quyết, bởi vì sự lựa chọn của bạn về cách giải quyết nó có thể không lý tưởng (thật khó để nói từ những gì ở đây).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.