Kiểm tra phần dư cho tính chuẩn trong các mô hình tuyến tính tổng quát


12

Bài viết này sử dụng các mô hình tuyến tính tổng quát (cả phân phối lỗi nhị thức và nhị phân âm) để phân tích dữ liệu. Nhưng sau đó trong phần phân tích thống kê của các phương pháp, có tuyên bố này:

... và thứ hai bằng cách mô hình hóa dữ liệu hiện diện bằng Mô hình hồi quy logistic và dữ liệu thời gian tìm kiếm bằng Mô hình tuyến tính tổng quát (GLM). Một phân phối nhị thức âm tính với chức năng liên kết nhật ký đã được sử dụng để mô hình hóa dữ liệu thời gian tìm kiếm (Welsh et al. 1996) và tính thỏa đáng của mô hình đã được xác minh bằng cách kiểm tra các đối tượng (McCullagh & Nelder 1989). Các xét nghiệm Shapiro về Wilk hoặc KolmogorovTHER Smirnov đã được sử dụng để kiểm tra tính bình thường tùy thuộc vào cỡ mẫu; dữ liệu được chuyển đổi log trước khi phân tích để tuân thủ quy tắc.

Nếu họ giả định phân phối lỗi nhị thức và nhị thức âm, thì chắc chắn họ không nên kiểm tra tính bình thường của phần dư?


2
Lưu ý rằng các lỗi không được phân phối nhị phân - mỗi phản hồi được phân phối nhị phân với tham số xác suất được cung cấp bởi các giá trị dự đoán tương ứng, theo câu trả lời cho một trong những câu hỏi khác của bạn .
Scortchi - Tái lập Monica

3
Không có gì trong hồi quy nhị thức hoặc nhị thức âm hơn mức cần thiết là bình thường. Nếu đó là phản ứng mà họ biến đổi, điều đó có thể rất phản tác dụng; nó sẽ làm hỏng GLM.
Glen_b -Reinstate Monica

1
Không rõ trong trích dẫn của bạn, thực tế họ đang kiểm tra tính bình thường (bạn có chắc đó là phần dư không?) Hoặc cho phân tích họ đang chuyển đổi dữ liệu (bạn có chắc đó là GLM không?).
Scortchi - Phục hồi Monica

Tôi đã mở rộng báo giá một chút. Ai đó có thể xác nhận nếu những gì tác giả của bài báo đã làm là sai hay đúng?
luciano

Tôi e rằng nó vẫn chưa rõ ràng khủng khiếp - liên hệ với các tác giả để biết chi tiết về cách họ thực hiện phân tích nếu nó không được giải thích ở nơi khác trong bài báo hoặc tài liệu tham khảo.
Scortchi - Phục hồi Monica

Câu trả lời:


16

NB phần dư (hoặc Pearson) không được mong đợi có phân phối bình thường ngoại trừ mô hình Gaussian. Đối với trường hợp hồi quy logistic, như @Stat nói, dư lệch lạc cho thứ quan sát y i được cho bởiiyi

riD=2|log(1π^i)|

nếu yi=0 &

riD=2|log(π^i)|

nếu , trong đó ^ π i là xác suất Bernoulli được trang bị. Vì mỗi giá trị chỉ có thể nhận một trong hai giá trị, rõ ràng phân phối của chúng không thể bình thường, ngay cả đối với một mô hình được chỉ định chính xác:yi=1πi^

#generate Bernoulli probabilities from true model
x <-rnorm(100)
p<-exp(x)/(1+exp(x))

#one replication per predictor value
n <- rep(1,100)
#simulate response
y <- rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial") -> mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

Cốt truyện QQ n = 1

Nhưng nếu có nhân rộng các quan sát cho inii mẫu dự đoán thứ , và phần dư lệch được xác định để thu thập các quan sát này

riD=sgn(yiniπ^i)2[yilogyinπ^i+(niyi)logniyini(1π^i)]

(Ở đâu yinini

#many replications per predictor value
n <- rep(30,100)
#simulate response
y<-rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial")->mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

Cốt truyện QQ n = 30

Mọi thứ đều tương tự đối với các GLM nhị phân hoặc nhị phân âm: đối với số lượng dự đoán thấp, phân phối phần dư là rời rạc & lệch, nhưng có xu hướng tính chuẩn cho số lượng lớn hơn theo mô hình được chỉ định chính xác.

Nó không bình thường, ít nhất là không ở trong rừng của tôi, để tiến hành một thử nghiệm chính thức về tính quy tắc còn lại; nếu kiểm tra tính quy tắc về cơ bản là vô dụng khi mô hình của bạn giả định tính quy tắc chính xác, thì một fortiori sẽ vô dụng khi nó không hoạt động. Tuy nhiên, đối với các mô hình chưa bão hòa, chẩn đoán dư đồ họa rất hữu ích để đánh giá sự hiện diện và bản chất của sự không phù hợp, lấy sự bình thường với một nhúm hoặc một nắm muối tùy thuộc vào số lần lặp lại trên mỗi mẫu dự đoán.


1

Những gì họ đã làm là chính xác! Tôi sẽ cung cấp cho bạn một tài liệu tham khảo để kiểm tra lại. Xem Phần 13.4.4 trong Giới thiệu về Phân tích hồi quy tuyến tính, Phiên bản 5của Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining. Cụ thể, hãy xem các ví dụ trên trang 460, trong đó chúng phù hợp với một nhị thức nhị phân và kiểm tra lại giả định về tính quy tắc của "Số dư sai lệch". Như đã đề cập ở trang 45, điều này là do "phần dư sai lệch hoạt động giống như phần dư thông thường làm trong mô hình hồi quy tuyến tính theo lý thuyết chuẩn thông thường". Vì vậy, sẽ hợp lý nếu bạn vẽ chúng theo tỷ lệ biểu đồ xác suất bình thường cũng như so với các giá trị được trang bị. Một lần nữa xem trang 456 của tài liệu tham khảo ở trên. Trong các ví dụ họ đã cung cấp ở trang 460 và 461, không chỉ cho trường hợp nhị thức, mà còn cho Poisson glm và Gamma với (link = log), họ đã kiểm tra tính quy tắc của phần dư sai lệch.
Đối với trường hợp nhị thức, phần dư được xác định là:

riD=2|ln(1πi^)|
yi=0
riD=2|ln(πi^)|
yi=1
> attach(npk)

> #Fitting binomila glm
> fit.1=glm(P~yield,family=binomial(logit))
> 
> #Getting deviance residuals directly
> rd=residuals(fit.1,type = c("deviance"))
> rd
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 
> 
> #Estimated success probabilities
> pi.hat=fitted(fit.1)
> 
> #Obtaining deviance residuals directly
> rd.check=-sqrt(2*abs(log(1-pi.hat)))
> rd.check[P==1]=sqrt(2*abs(log(pi.hat[P==1])))
> rd.check
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 

Kiểm tra ở đây cho trường hợp Poisson là tốt.


2
Ví dụ của bạn là một lựa chọn kỳ lạ. Bạn đã thực hiện một âm mưu PP hoặc QQ của những phần dư sai lệch đó; Nếu vậy, bạn đã kết luận những gì?
Scortchi - Tái lập Monica

5
Điểm trong trường hợp này là không có ý nghĩa trong việc kiểm tra tính quy phạm của phần dư - rõ ràng chúng không được phân phối bình thường, cũng không nên như vậy. Chỉ khi số lượng quan sát cho mỗi mẫu dự báo tăng thì phân phối phần dư (một phần dư được tính trên mẫu dự báo) có xu hướng bình thường. Tương tự như vậy đối với mô hình nhị phân Poisson hoặc âm - số lượng cần phải lớn-ish để xấp xỉ bình thường là tốt.
Scortchi - Tái lập Monica

2
Câu hỏi đặt ra là liệu phần dư từ các mô hình tuyến tính tổng quát có nên được phân phối bình thường hay không. Câu trả lời của bạn dường như là "có" không đủ tiêu chuẩn (mặc dù các nguồn của bạn chắc chắn đưa ra các bằng cấp cần thiết, không phải mọi người đọc sẽ kiểm tra chúng). Sau đó, bạn đưa ra một ví dụ trong đó không có lý do nào để mong đợi phần dư được phân phối bình thường, ngay cả khi mô hình được chỉ định chính xác: một người đọc không thận trọng sẽ cho rằng họ nên & vì, rõ ràng là không, đây là do đó, một ví dụ về việc phát hiện đặc tả sai của mô hình bằng cách kiểm tra các phần dư (mặc dù bạn ...
Scortchi - Tái lập Monica

2
... không nói là vậy). Vì vậy, tôi nghĩ rằng câu trả lời đòi hỏi nhiều sự làm rõ để có ích.
Scortchi - Tái lập Monica

2
Ý kiến ​​của IMO @ Scortchi là hợp lý ở đây. Nhìn vào những gì tôi có thể thấy về cuốn sách Montgomery trên bản xem trước của google, họ thực hiện cốt truyện QQ, nhưng không thực hiện một bài kiểm tra tính quy phạm thực tế như được đề cập bởi người đăng ban đầu. Chắc chắn làm cho cốt truyện QQ là hợp lý như một thử nghiệm chẩn đoán, nhưng trong hầu hết các trường hợp thực tế ngay cả sự sai lệch vẫn tồn tại. sẽ không được bình thường.
Andy W
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.