Giải thích biểu đồ của phần dư so với giá trị được trang bị từ hồi quy Poisson


25

Tôi đang cố gắng khớp dữ liệu với GLM (hồi quy poisson) trong R. Khi tôi vẽ các phần dư so với các giá trị được trang bị, biểu đồ đã tạo ra nhiều đường (gần như tuyến tính với một đường cong lõm nhẹ). Điều đó có nghĩa là gì?

library(faraway)
modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + 
            freerepa + illness + actdays + hscore + chcond1 + chcond2,
            family=poisson, data=dvisits)
plot(modl)

nhập mô tả hình ảnh ở đây


Tôi không biết liệu bạn có thể tải lên cốt truyện không (đôi khi người mới không thể), nhưng nếu không, ít nhất bạn có thể thêm một số dữ liệu & mã R vào câu hỏi của mình để mọi người có thể đánh giá không?
gung - Phục hồi Monica

Jocelyn, tôi đã cập nhật bài viết của bạn với thông tin bạn đưa vào một bình luận. Tôi cũng đã gắn thẻ này homeworkvì bạn đã nói về một bài tập.
chl

thử biểu đồ (jitter (mod1)) để xem biểu đồ có dễ đọc hơn một chút không. Tại sao bạn không xác định số dư cho chúng tôi và cho chúng tôi dự đoán tốt nhất của bạn khi tự mình giải thích biểu đồ.
Michael Giám mục

1
Từ câu hỏi, tôi sẽ giả định rằng bạn hiểu phân phối Poisson & Pois reg, và một biểu đồ của phần dư so với giá trị được trang bị cho bạn biết (cập nhật nếu điều đó sai), do đó bạn chỉ tự hỏi về sự xuất hiện kỳ ​​lạ của các điểm trong cốt truyện. B / c đây là bài tập về nhà, chúng tôi không trả lời như chính sách chung của chúng tôi, nhưng cung cấp gợi ý. Tôi nhận thấy rằng bạn có rất nhiều đồng biến, tôi tự hỏi nếu bạn có 1 hiệp phương sai liên tục và nhiều.
gung - Phục hồi Monica

1
Hai phần tiếp theo từ bình luận của gung. Đầu tiên, hãy thử table(dvisits$doctorco). 10 đường cong trên ô của bạn tương ứng với cái gì trong bảng này? Ngoài ra, với hơn 5000 quan sát, đừng quá lo lắng về việc phù hợp với 13 hệ số hồi quy.
khách

Câu trả lời:


29

Đây là sự xuất hiện mà bạn mong đợi của một âm mưu như vậy khi biến phụ thuộc rời rạc.

kyy=ky^ky^ky^y^1log(y^)ky

Chúng ta có thể tái tạo cốt truyện trong câu hỏi khá chặt chẽ bằng một mô hình tương tự nhưng tùy ý (sử dụng các hệ số ngẫu nhiên nhỏ):

# Create random data for a random model.
set.seed(17)
n <- 2^12                       # Number of cases
k <- 12                         # Number of variables
beta = rnorm(k, sd=0.2)         # Model coefficients
x <- matrix(rnorm(n*k), ncol=k) # Independent values
y <- rpois(n, lambda=exp(-0.5 + x %*% beta + 0.1*rnorm(n)))

# Wrap the data into a data frame, create a formula, and run the model.
df <- data.frame(cbind(y,x))    
s.formula <- apply(matrix(1:k, nrow=1), 1, function(i) paste("V", i+1, sep=""))
s.formula <- paste("y ~", paste(s.formula, collapse="+"))
modl <- glm(as.formula(s.formula), family=poisson, data=df)

# Construct a residual vs. prediction plot.
b <- coefficients(modl)
y.hat <- x %*% b[-1] + b[1]     # *Logs* of the predicted values
y.res <- y - exp(y.hat)         # Residuals
colors <- 1:(max(y)+1)          # One color for each possible value of y
plot(y.hat, y.res, col=colors[y+1], main="Residuals v. Fitted")

Dư so với trang bị


6
(+1) Màu sắc đi một chặng đường dài trong việc hiển thị những gì đang xảy ra.
Đức hồng y

Vậy cốt truyện trên có liên quan? Các văn bản (Mô hình thống kê cho các nhà nghiên cứu y sinh: Giới thiệu đơn giản về phân tích dữ liệu phức tạp, Dupont, 2002, trang 316, ví dụ) chỉ ra âm mưu được trang bị so với dư nên tập trung vào đường dư không và quạt (nếu còn nguyên dư) hoặc không (nếu lệch, ví dụ). Với phạm vi số lượng giới hạn trong biến kết quả, bạn có được các dải này và, như trong âm mưu trên, chúng không tập trung vào dòng tại y = 0. Làm thế nào để chúng ta biết âm mưu còn lại của OP (hoặc âm mưu ví dụ thực hiện trong câu trả lời này) cho biết mô hình phù hợp với dữ liệu?
Meg

1
@Meg Lời khuyên đó không áp dụng trực tiếp cho phần dư của GLM. Lưu ý rằng mô hình được sử dụng để minh họa câu trả lời này được biết là chính xác vì đó là mô hình được sử dụng để tạo dữ liệu.
whuber

1/2: Cảm ơn @whuber. Tôi hiểu cho câu trả lời này, mô hình được biết là chính xác vì dữ liệu được mô phỏng từ một phân phối nhất định, nhưng trong thực tế, nó không được biết (như trong bài của OP). Ngoài ra, những gì tôi đã viết về phần dư không áp dụng cho hồi quy POI (không phải tất cả GLM, không, nhưng cái này) - tài liệu tham khảo tôi đưa ra là thảo luận cụ thể về hồi quy POI. Tôi chỉ thấy các văn bản hiển thị phần dư POI được tiêu chuẩn hóa (Pearson hoặc lệch, ví dụ) tập trung vào y = 0, vì vậy tôi không chắc mình nên tìm gì, vì đối với mô hình này (rõ ràng là chính xác), cốt truyện trông không có gì như thế.
Meg

2/2: Bạn có tham khảo ý kiến ​​thảo luận về phần dư POI kỹ lưỡng hơn không?
Meg

8

Đôi khi các sọc như thế này trong các ô dư biểu thị các điểm có (gần như) các giá trị quan sát giống hệt nhau có được các dự đoán khác nhau. Nhìn vào các giá trị mục tiêu của bạn: chúng có bao nhiêu giá trị duy nhất? Nếu đề xuất của tôi là chính xác, sẽ có 9 giá trị duy nhất trong tập dữ liệu đào tạo của bạn.


1
0,1,,9

-3

Mẫu này là đặc trưng của một kết hợp không chính xác của gia đình và / hoặc liên kết. Nếu bạn có dữ liệu quá mức thì có lẽ bạn nên xem xét phân phối nhị thức âm (đếm) hoặc gamma (liên tục). Ngoài ra, bạn nên vẽ các phần dư của mình dựa trên bộ dự báo tuyến tính được chuyển đổi, chứ không phải các bộ dự đoán khi sử dụng các mô hình tuyến tính tổng quát. Để biến đổi bộ dự báo Poisson, bạn cần lấy 2 lần căn bậc hai của bộ dự báo tuyến tính và vẽ số dư của bạn theo đó. Phần dư hơn nữa không nên là phần dư của pearson, hãy thử phần dư sai lệch và phần còn lại của học sinh.


3
Tại sao 2 lần căn bậc hai, khi liên kết chính tắc của họ poisson trong một glm là log? Không nên là exp () của bộ dự báo tuyến tính? Nhưng tôi không thấy vấn đề gì với việc vẽ các phần dư so với chính bộ dự báo tuyến tính, mà tôi nghĩ là những gì đang được thực hiện ở đây - có lẽ bạn có thể mở rộng về điều đó.
Peter Ellis

Bạn có phiền giải thích khía cạnh nào của "mẫu" đang thu hút sự chú ý của bạn đến một đặc điểm kỹ thuật sai có thể xảy ra không, Ryan? Nó có vẻ là một điều tinh tế, nhưng có khả năng là một cái nhìn sâu sắc quan trọng.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.