R: kiểm tra tính quy phạm của phần dư của mô hình tuyến tính - phần dư sẽ sử dụng


13

Tôi muốn làm một bài kiểm tra W của Shapiro Wilk và bài kiểm tra Kolmogorov-Smirnov trên phần dư của mô hình tuyến tính để kiểm tra tính chuẩn. Tôi chỉ tự hỏi những gì còn lại nên được sử dụng cho điều này - phần dư thô, phần dư Pearson, phần dư sinh viên hoặc phần dư tiêu chuẩn? Đối với thử nghiệm W của Shapiro-Wilk, có vẻ như kết quả cho phần dư & Pearson thô là giống hệt nhau nhưng không phải cho các kết quả khác.

fit=lm(mpg ~ 1 + hp + wt, data=mtcars)
res1=residuals(fit,type="response")
res2=residuals(fit,type="pearson")
res3=rstudent(fit)
res4=rstandard(fit)
shapiro.test(res1) # W = 0.9279, p-value = 0.03427
shapiro.test(res2) # W = 0.9279, p-value = 0.03427
shapiro.test(res3) # W = 0.9058, p-value = 0.008722
shapiro.test(res4) # W = 0.9205, p-value = 0.02143

Câu hỏi tương tự cho KS và cũng là liệu phần dư có nên được kiểm tra đối với phân phối bình thường (pnorm) như trong

ks.test(res1, "pnorm") # D = 0.296, p-value = 0.005563

hoặc phân phối t-student với nk-2 bậc tự do, như trong

ks.test(res3, "pt",df=nrow(mtcars)-2-2) 

Có lời khuyên nào không? Ngoài ra, các giá trị được đề xuất cho thống kê kiểm tra W (> 0,9?) Và D là gì để phân phối đủ gần với quy tắc và không ảnh hưởng quá nhiều đến suy luận của bạn?

Cuối cùng, cách tiếp cận này có tính đến sự không chắc chắn trong các hệ số lm được trang bị, hoặc chức năng cumres()trong gói gof()sẽ tốt hơn về mặt này?

chúc mừng, Tom


9
Rất hiếm khi một bài kiểm tra như vậy có bất kỳ điểm nào. Tự hỏi bản thân bạn sẽ làm gì hành động cụ thể nếu phần dư hóa ra là "đáng kể" không bình thường. Kinh nghiệm dạy bạn rằng nó phụ thuộc vào mức độ và mức độ khác nhau của chúng so với tính quy tắc. Không ai trong số đó được đo trực tiếp (hoặc đầy đủ) bằng SW, KS hoặc bất kỳ thử nghiệm phân phối chính thức nào khác. Đối với công việc này, bạn muốn sử dụng đồ họa khám phá, không phải thử nghiệm chính thức. Câu hỏi về phần dư nào có thể phù hợp cho âm mưu vẫn còn, nhưng các câu hỏi còn lại rơi vào bên lề là không liên quan.
whuber

Có, tôi đã nhận thấy rằng nhiều nhà thống kê ủng hộ vị trí này. Nhưng tôi vẫn muốn kiểm tra số liệu thống kê kiểm tra của các thử nghiệm này (ví dụ: kiểm tra xem giá trị của Shapiro Wilks W có lớn hơn 0,9 không). Và tôi luôn có thể thực hiện chuyển đổi Box-Cox hoặc một cái gì đó tương tự để cải thiện tính quy tắc trong trường hợp độ lệch lớn. Ngoài ra, câu hỏi của tôi cũng chỉ là một phần về mặt khái niệm - tức là cách nào sẽ là cách làm đúng đắn nhất, ngay cả khi tính bình thường không phải lúc nào cũng quan trọng trong thực tế ...
Tom Wenseleers

Câu trả lời:


9

Đã quá dài cho một bình luận.

  1. Đối với một mô hình hồi quy thông thường (như sẽ được trang bị bởi lm), không có sự phân biệt giữa hai loại dư đầu tiên mà bạn xem xét; type="pearson"có liên quan đến các GLM không phải Gaussian, nhưng giống như responsevới các mô hình gaussian.

  2. Các quan sát bạn áp dụng các thử nghiệm của mình cho (một số dạng dư) không độc lập, vì vậy các thống kê thông thường không có phân phối chính xác. Hơn nữa, nói đúng ra, không có phần dư nào bạn xem xét sẽ hoàn toàn bình thường, vì dữ liệu của bạn sẽ không bao giờ chính xác bình thường. [Kiểm tra chính thức trả lời câu hỏi sai - một câu hỏi phù hợp hơn sẽ là 'sự không bình thường này sẽ ảnh hưởng đến suy luận của tôi đến mức nào?', Một câu hỏi không được trả lời bởi sự tốt đẹp thông thường của kiểm tra giả thuyết phù hợp.]

  3. Ngay cả khi dữ liệu của bạn là chính xác bình thường, cả loại dư thứ ba và thứ tư đều không chính xác bình thường. Tuy nhiên, mọi người thường kiểm tra những thứ đó (nói theo cốt truyện QQ) nhiều hơn so với phần dư.

  4. Bạn có thể khắc phục một số vấn đề trong 2. và 3. (sự phụ thuộc vào phần dư cũng như tính không quy tắc trong phần dư được tiêu chuẩn hóa) bằng cách mô phỏng có điều kiện trên ma trận thiết kế của bạn ( ), nghĩa là bạn có thể sử dụng bất kỳ phần dư nào bạn muốn (tuy nhiên bạn không thể đối phó với "trả lời một câu hỏi không có ích mà bạn đã biết câu trả lời cho" vấn đề theo cách đó).X

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.