Giải thích các lô chẩn đoán dư cho các mô hình glm?

33

Tôi đang tìm hướng dẫn về cách diễn giải các lô dư của các mô hình glm. Đặc biệt là poisson, nhị thức âm, mô hình nhị thức. Chúng ta có thể mong đợi gì từ những mảnh đất này khi các mô hình "chính xác"? (ví dụ: chúng tôi hy vọng phương sai sẽ tăng khi giá trị dự đoán tăng, khi xử lý mô hình Poisson)

Tôi biết các câu trả lời phụ thuộc vào các mô hình. Bất kỳ tài liệu tham khảo (hoặc điểm chung để xem xét) sẽ hữu ích / đánh giá cao.

generalized-linear-model diagnostic residuals

— Tal Galili
nguồn

16

Tôi nghĩ rằng đây là một trong những phần thử thách nhất khi thực hiện phân tích hồi quy. Tôi cũng đấu tranh với hầu hết các giải thích (đặc biệt là chẩn đoán nhị thức là điên rồ!).

Tôi chỉ vấp vào bài đăng này http://www.r-bloggers.com/model-validation-interpreting-residual-plots/ , người cũng đã liên kết http://statmaster.sdu.dk/cifts/st111/module04/index.html # PHẦN00020000000000000000

điều giúp tôi nhiều nhất là vẽ các phần dư so với mọi tham số dự đoán được bao gồm VÀ không được đưa vào mô hình. Điều này cũng có nghĩa là những người đã bị loại bỏ trước vì lý do đa bạch cầu. Đối với các ô vuông này, các biểu đồ phân tán có điều kiện và các biểu đồ phân tán thông thường là tuyệt vời. điều này giúp phát hiện các lỗi có thể

Trong "Phân tích rừng với R" (Sê-ri UseR) là một số giải thích tốt về cách diễn giải phần dư cho các mô hình hiệu ứng hỗn hợp (và cả glms nữa). Đọc tốt! http://www.springer.com/statistic/life+scatics,+medicine+%26+health/book/978-1-4419-7761-8

Một ngày trước, tôi đã nghĩ về một trang web có thể thu thập các mẫu còn lại mà người dùng có thể bình chọn là "ok" và "không ổn". nhưng tôi không bao giờ tìm thấy trang web đó;)

— Jens
nguồn

8

Tôi muốn đề xuất các phương pháp được mô tả trong:

 Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne,
 D.F and Wickham, H. (2009) Statistical Inference for exploratory
 data analysis and model diagnostics Phil. Trans. R. Soc. A 2009
 367, 4361-4383 doi: 10.1098/rsta.2009.0120

Có một vài ý tưởng khác nhau, nhưng chủ yếu chúng bắt nguồn từ việc mô phỏng dữ liệu nơi bạn biết mối quan hệ thực sự là gì và mối quan hệ đó dựa trên phân tích của bạn về dữ liệu thực. Sau đó, bạn so sánh chẩn đoán từ dữ liệu thực của bạn với chẩn đoán của các bộ dữ liệu mô phỏng. Các vis.testchức năng trong gói TeachingDemos cho R thực hiện một biến thể của 1 trong tổng số những đề nghị trong tờ giấy. Đọc toàn bộ bài viết (không chỉ tóm tắt rất ngắn của tôi) để hiểu rõ hơn.

— Greg tuyết
nguồn

Tôi nghĩ rằng đó là một gợi ý tốt để xem các mẫu đi chệch khỏi ngẫu nhiên trong phân tán hoặc các ô khác, nhưng đó không phải là mục tiêu duy nhất khi xem phần dư. Chúng tôi thường quan tâm đến những sai lệch cụ thể so với ngẫu nhiên (ví dụ: hetereoscedasticity, phi tuyến tính sai chính tả trong mô hình, các biến bị bỏ qua, ngoại lệ hoặc giá trị đòn bẩy cao, v.v.). So sánh dữ liệu được tạo ngẫu nhiên không thực sự giúp ích trong việc xác định lý do tại sao phần dư không phải là ngẫu nhiên cũng không phải là biện pháp khắc phục.

— Andy W

@AndyW, tôi nghĩ rằng chúng tôi đang diễn giải câu hỏi ban đầu khác nhau. Câu trả lời của tôi khiến nhà nghiên cứu bắt đầu bằng cách cho họ biết nếu có thêm điều gì họ cần tìm, hoặc nếu cốt truyện còn lại là hợp lý. Phải làm gì nếu nó không hợp lý thì đó là bước tiếp theo và vượt ra ngoài câu trả lời của tôi (mặc dù một số giả định bổ sung có thể được so sánh bằng cách sử dụng một bộ mô phỏng mới).

— Greg Snow

5

Câu hỏi này khá cũ, nhưng tôi nghĩ sẽ rất hữu ích khi thêm vào đó, vì gần đây, bạn có thể sử dụng gói DHARMa R để biến đổi phần dư của bất kỳ GL (M) M nào thành không gian chuẩn. Một khi điều này được thực hiện, bạn có thể đánh giá / kiểm tra các vấn đề còn lại một cách trực quan như độ lệch so với phân phối, sự phụ thuộc còn lại vào một yếu tố dự đoán, độ không đồng nhất hoặc tự tương quan theo cách thông thường. Xem các họa tiết gói cho các ví dụ thông qua, cũng có các câu hỏi khác về CV ở đây và đây .

— Florian Hartig
nguồn