Câu trả lời:
What is the expected distribution of residuals?
Nó thay đổi theo mô hình theo những cách làm cho điều này không thể trả lời chung.
For example, should the residuals be distributed normally?
Không nói chung, không.
Có cả một ngành công nghiệp tiểu thủ tập trung vào việc thiết kế phần dư cho GLM đối xứng hơn hoặc thậm chí xấp xỉ "bình thường" (ví dụ Gaussian), ví dụ phần dư Pearson, phần dư Anscombe, phần dư lệch (điều chỉnh), v.v. Xem ví dụ Chương 6 của James W Hardin và Joseph M. Hilbe (2007) "Các mô hình tuyến tính tổng quát và mở rộng" phiên bản thứ hai. Trạm đại học, TX: Nhà xuất bản Stata. Nếu biến phụ thuộc là rời rạc (biến chỉ thị hoặc số đếm) thì rõ ràng rất khó để phân phối dự kiến của phần dư chính xác là Gaussian.
Một điều bạn có thể làm là liên tục mô phỏng dữ liệu mới với giả định rằng mô hình của bạn là đúng, ước tính mô hình của bạn bằng cách sử dụng dữ liệu mô phỏng đó và tính toán phần dư, sau đó so sánh phần dư thực tế của bạn với phần dư được mô phỏng. Ở Stata tôi sẽ làm như vậy:
sysuse nlsw88, clear
glm wage i.union grade c.ttl_exp##c.ttl_exp, link(log) family(poisson)
// collect which observations were used in estimation and the predicted mean
gen byte touse = e(sample)
predict double mu if touse
// predict residuals
predict resid if touse, anscombe
// prepare variables for plotting a cumulative distribution function
cumul resid, gen(c)
// collect the graph command in the local macro `graph'
local graph "twoway"
// create 19 simulations:
gen ysim = .
forvalues i = 1/19 {
replace ysim = rpoisson(mu) if touse
glm ysim i.union grade c.ttl_exp##c.ttl_exp, link(log) family(poisson)
predict resid`i' if touse, anscombe
cumul resid`i', gen(c`i')
local graph "`graph' line c`i' resid`i', sort lpattern(solid) lcolor(gs8) ||"
}
local graph "`graph' line c resid, sort lpattern(solid) lcolor(black) "
// display the graph
`graph' legend(order(20 "actual residuals" 1 "simulations"))