Một âm mưu biến đã thêm (âm mưu hồi quy từng phần) giải thích điều gì trong hồi quy bội?


17

Tôi có một mô hình dữ liệu Phim và tôi đã sử dụng hồi quy:

model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)

Mà đã cho đầu ra:

nhập mô tả hình ảnh ở đây

Bây giờ tôi đã thử làm việc một cái gì đó được gọi là Lô biến đổi bổ sung lần đầu tiên và tôi đã nhận được kết quả sau:

avPlots(model, id.n=2, id.cex=0.7)

Đã thêm lô biến

Vấn đề là tôi đã cố gắng hiểu Âm mưu biến đã thêm bằng cách sử dụng google nhưng tôi không thể hiểu được độ sâu của nó, nhìn thấy cốt truyện tôi hiểu rằng kiểu biểu diễn của xiên dựa trên mỗi biến đầu vào liên quan đến đầu ra.

Tôi có thể biết thêm chi tiết như cách nó chứng minh việc chuẩn hóa dữ liệu không?


4
@Silverfish đã đưa ra một câu trả lời hay cho câu hỏi của bạn. Trên chi tiết nhỏ về những việc cần làm với bộ dữ liệu cụ thể của bạn, một mô hình tuyến tính trông giống như một ý tưởng rất tồi. Phiếu bầu rõ ràng là một biến không âm rất sai lệch, do đó, một cái gì đó giống như một mô hình Poisson được chỉ định. Xem ví dụ blog.stata.com/tag/poisson-regression Lưu ý rằng một mô hình như vậy không cam kết với bạn giả định rằng phân phối biên của phản hồi chính xác là bất kỳ mô hình tuyến tính tiêu chuẩn nào cam kết với bạn về quy tắc cận biên.
Nick Cox

2
Một cách để thấy rằng mô hình tuyến tính hoạt động kém là lưu ý rằng nó dự đoán các giá trị âm cho một phần đáng kể các trường hợp. Xem vùng bên trái của trang bị trên ô dư đầu tiên. =0
Nick Cox

Cảm ơn Nick Cox, ở đây tôi thấy rằng có một bản chất không tiêu cực bị sai lệch, tôi phải xem xét mô hình Poisson, vì vậy có liên kết nào cho tôi ý tưởng đúng về mô hình nào được sử dụng trong kịch bản dựa trên tập dữ liệu và tôi đã thử sử dụng Hồi quy đa thức cho tập dữ liệu của tôi, đó sẽ là một lựa chọn đúng đắn ở đây ...
Abhishek Choudhary

1
Tôi đã đưa ra một liên kết mà lần lượt cung cấp thêm tài liệu tham khảo. Xin lỗi, nhưng tôi không hiểu nửa sau câu hỏi của bạn có liên quan đến "kịch bản dựa trên tập dữ liệu" và "hồi quy đa thức". Tôi nghi ngờ bạn cần phải hỏi một câu hỏi mới với nhiều chi tiết hơn.
Nick Cox

Gói nào bạn đã cài đặt để R nhận ra chức năng avPlots?
Ê

Câu trả lời:


36

Để minh hoạ tôi sẽ mất một mô hình hồi quy ít phức tạp Y=β1+β2X2+β3X3+ϵ nơi các biến dự đoán X2X3 có thể liên quan. Hãy nói rằng các sườn núi β2β3 đều dương nên chúng ta có thể nói rằng (i)Y tăng khiX2 tăng, nếuX3 được giữ không đổi, vìβ2 là dương; (ii)Ytăng khi X3 tăng, nếu X2 được giữ không đổi, vì β3 là dương.

Lưu ý rằng điều quan trọng là giải thích nhiều hệ số hồi quy bằng cách xem xét điều gì xảy ra khi các biến khác được giữ không đổi ("ceteris paribus"). Giả sử tôi chỉ thụt lùi Y chống lại X2 với một mô hình Y=β1+β2X2+ϵ . Ước tính của tôi cho độ dốc hệ số β2 , mà các biện pháp ảnh hưởng đến Y của một sự gia tăng một đơn vị trong X2 mà không cầngiữX3liên tục, có thể khác so với dự kiến của tôi về β2 2X 3 có tương quan.từ hồi quy nhiều - đó cũng đo lường ảnh hưởng đến Y của một sự gia tăng một đơn vị trong X2 , nhưng nó không giữ X3 liên tục. Vấn đề với ước tính của tôi β2^ là nó bị thiên vị bỏ qua biến nếu X2X3

Để hiểu tại sao, hãy tưởng tượng X2X3 có mối tương quan ngược chiều. Bây giờ khi tôi tăng X2 lên một đơn vị, tôi biết giá trị trung bình của Y sẽ tăng kể từ β2>0 . Nhưng khi X2 tăng, nếu chúng ta không giữ X3 không đổi thì 3 . Mọi thứ trở nên tồi tệ hơn sự mạnh mẽ hơn X 2X 3 có tương quan, và càng lớn thì ảnh hưởng của X 3 thông qua β 3X3 có xu hướng giảm, và vìβ3>0 này sẽ có xu hướng giảm giá trị trung bình củaY . Vì vậy, hiệu ứng tổng thể của việc tăng một đơn vị trongX2 sẽ xuất hiện thấp hơn nếu tôi cho phépX3 thay đổi cũng có thể, do đó β2<β2 X 2 có ảnh hưởng tích cực đến Y !X2X3X3β3 - trong trường hợp thực sự nghiêm trọng, chúng tôi thậm chí có thể tìm β2<0 mặc dù chúng ta biết rằng, ceteris tố khác không đổi,X2Y

Hy vọng rằng bây giờ bạn có thể thấy tại sao vẽ đồ thị của Y so với X2 sẽ là một cách kém để hình dung mối quan hệ giữa YX2 trong mô hình của bạn. Trong ví dụ của tôi, mắt của bạn sẽ bị thu hút bởi một dòng phù hợp nhất với độ dốc β2^ mà không phản ánh β2^ từ mô hình hồi quy của bạn. Trong trường hợp xấu nhất, mô hình của bạn có thể dự đoán rằng Y tăng khi X2 tăng (với các biến khác được giữ cố định) và các điểm trên biểu đồ cho thấy Y giảm khi X2 tăng.

Vấn đề là trong đồ thị đơn giản của Y so với X2 , các biến khác không được giữ nguyên. Đây là cái nhìn sâu sắc quan trọng về lợi ích của một biểu đồ biến được thêm vào (còn được gọi là biểu đồ hồi quy một phần) - nó sử dụng định lý Frisch-Waugh-Lovell để "loại bỏ một phần" hiệu ứng của các yếu tố dự đoán khác. Các trục dọc và trục dọc trên cốt truyện có lẽ dễ hiểu nhất * là " X2 sau khi các yếu tố dự đoán khác được tính" và " Y sau khi các yếu tố dự đoán khác được tính". Bây giờ bạn có thể xem xét mối quan hệ giữa YX2 khi tất cả các yếu tố dự đoán khác đã được tính đến. Vì vậy, ví dụ, độ dốc bạn có thể thấy trong mỗi ô bây giờ phản ánh các hệ số hồi quy từng phần từ mô hình hồi quy bội ban đầu của bạn.

X2X3X2X3 là tương quan nghịch thì sự kết hợp là hiếm. "Kế toán cho các yếu tố dự đoán khác",giá trịX2 lớn bất thường và sẽ nổi bật hơn trên biểu đồ biến được thêm vào của bạn.

YX2X2YX2X2Yđã cho người khác) sẽ chỉ là (0, 0) giải thích tại sao đường hồi quy trong biểu đồ biến được thêm vào luôn đi qua gốc. Nhưng tôi thường thấy rằng việc đề cập đến các trục chỉ là phần dư từ các hồi quy khác làm mọi người bối rối (có lẽ không ngạc nhiên vì bây giờ chúng ta đang nói về bốn hồi quy khác nhau!) Vì vậy tôi đã cố gắng không quan tâm đến vấn đề này. Hiểu họ là " X2 cho người khác" và "Y


Không chắc chắn làm thế nào để hỏi điều này, nhưng có bất cứ điều gì thực sự có thể được nói về các xu hướng nhìn thấy trong các lô? Ví dụ, sự tốt đẹp của sự phù hợp của từng xu hướng có liên quan đến mức độ độc lập của từng yếu tố dự đoán hay điều gì đó tương tự không?
ness101

2
Có một phương thức tồn tại để dịch các đơn vị dư trên trục ngang và trục dọc thành đơn vị của các biến cơ bản không?
Nicholas G

Đây là một câu trả lời tuyệt vời. Nhưng có một lỗi đánh máy trong đoạn đầu tiên của bạn (biến dự đoán) không? Họ có nên là X2 và X3?
gièm pha

@detly Cảm ơn, đã thay đổi!
Cá bạc

Cá bạc, bạn có biết câu trả lời cho câu hỏi @NicholasG không? Có cách nào để làm cho phần dư có thể hiểu được theo các đơn vị của biến X không?
Parseltongue

-1

Có điều gì thực sự có thể nói về các xu hướng được nhìn thấy trong các ô không

Chắc chắn, độ dốc của chúng là các hệ số hồi quy từ mô hình ban đầu (hệ số hồi quy từng phần, tất cả các yếu tố dự đoán khác được giữ không đổi)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.