Không quy tắc trong phần dư


8

Tôi đề cập đến bài đăng này dường như đặt câu hỏi về tầm quan trọng của sự phân phối bình thường của phần dư, cho rằng điều này cùng với tính không đồng nhất có thể tránh được bằng cách sử dụng các lỗi tiêu chuẩn mạnh.

Tôi đã xem xét các biến đổi khác nhau - gốc rễ, nhật ký, v.v. - và tất cả đang chứng tỏ sự vô dụng trong việc giải quyết hoàn toàn vấn đề.

Đây là một âm mưu QQ của phần còn lại của tôi:

Âm mưu bình thường

Dữ liệu

  • Biến phụ thuộc: đã có chuyển đổi logarit (khắc phục các sự cố ngoại lệ và sự cố với độ lệch trong dữ liệu này)
  • Biến độc lập: tuổi của công ty và một số biến nhị phân (chỉ số) (Sau này tôi có một số đếm, cho một hồi quy riêng như biến độc lập)

Các iqrlệnh (Hamilton) trong Stata không xác định chênh lệch nào không nghiêm trọng mà loại trừ bình thường, nhưng đồ thị dưới đây cho thấy cách khác và do đó, các thử nghiệm Shapiro-Wilk.


4
Tôi sẽ không lo lắng bởi một biểu đồ như vậy, độ lệch có vẻ đủ nhẹ. Nếu bạn muốn, bạn có thể thêm giới hạn tin cậy vào biểu đồ đó bằng cách sử dụng qenvgói.
Maarten Buis

4
Tôi đồng ý với @MaartenBuis rằng bạn không nên lo lắng quá nhiều dựa trên cốt truyện. Tôi không khuyên bạn nên dựa vào một bài kiểm tra chính thức về tính quy tắc (ví dụ kiểm tra Shapiro) của phần dư. Trong các mẫu lớn, thử nghiệm hầu như sẽ luôn bác bỏ giả thuyết . Dưới đây là một câu trả lời thông tin từ Glen trong đó giải quyết chính xác câu hỏi về kiểm tra chính thức tính quy phạm của phần dư.
COOLSerdash

4
Xem thêm cái nàycái này . Cũng lưu ý rằng khi kích thước mẫu của bạn lớn hơn, các giả định thông thường của bạn trở nên ít quan trọng hơn. Trừ khi bạn có rất nhiều người dự đoán, sự phi bình thường nhẹ như vậy sẽ không có hậu quả gì cả. Vấn đề không chỉ là các bài kiểm tra giả thuyết sẽ từ chối khi các mẫu lớn - họ cũng trả lời sai câu hỏi ở các cỡ mẫu khác.
Glen_b -Reinstate Monica

3
p

5
Điều quan trọng là ảnh hưởng đến suy luận của bạn . Dạng suy luận duy nhất mà một hiệu ứng nhỏ như vậy sẽ không có tác động gì cả là với một khoảng dự đoán ... và thậm chí ở đó, tôi có thể sử dụng nó với một ít thao tác, trừ khi tôi cần một khoảng dự đoán ở xa đuôi ( nói 99% trở lên). Đáng quan tâm hơn sẽ là các vấn đề như sự phụ thuộc và sai lệch và đặc tả sai của mô hình cho giá trị trung bình hoặc phương sai.
Glen_b -Reinstate Monica

Câu trả lời:


9

Một cách bạn có thể thêm "hương vị giống như thử nghiệm" vào biểu đồ của mình là thêm giới hạn tự tin xung quanh chúng. Ở Stata tôi sẽ làm như vậy:

sysuse nlsw88, clear
gen lnw = ln(wage)

reg lnw i.race grade c.ttl_exp##c.ttl_exp union

predict resid if e(sample), resid

qenvnormal resid, mean(0) sd(`e(rmse)') overall reps(20000) gen(lb ub)

qplot resid lb ub, ms(oh none ..) c(. l l)     ///
    lc(gs10 ..) legend(off) ytitle("residual") ///
    trscale(`e(rmse)' * invnormal(@))          ///
    xtitle(Normal quantiles)

nhập mô tả hình ảnh ở đây


3
Lưu ý rằng người dùng Stata cần cài đặt qenv(bằng ssc install qenv) trước.
Nick Cox

Tôi sẽ xem xét điều này ngày hôm nay và xem liệu tôi có thể có được giới hạn về sự tự tin hay không
Cesare Camestre

Gặp lỗi: qenvn normal dư, trung bình (0) se (`e (rmse) ') tổng đại diện (20000) gen (lb ub) - tùy chọn se () không được phép
Cesare Camestre

1
đúng, nó cần phải có được sd(). Đó là bình thường (không có ý định chơi chữ) mà qenvvới overalltùy chọn mất rất nhiều thời gian.
Maarten Buis

1
Các trợ giúp qenvnormalkhông giải thích rằng bạn cần phải cài đặt qplot. Bạn sẽ đọc được sự giúp đỡ. Quan trọng hơn, tôi đoán bạn đang sử dụng một phiên bản rất cũ qplot. Cài đặt từ gói gr42_6 từ stata-journal.com/software/sj12-1
Nick Cox

5

Một điều cần lưu ý khi kiểm tra các lô qq này là các đuôi sẽ có xu hướng lệch khỏi đường ngay cả khi phân phối cơ bản là thực sự bình thường và cho dù N có lớn đến đâu. Điều này được ngụ ý trong câu trả lời của Maarten . Điều này là do N càng ngày càng lớn, đuôi sẽ càng ngày càng xa và các sự kiện hiếm hơn và hiếm hơn. Do đó sẽ luôn có rất ít dữ liệu trong đuôi và chúng sẽ luôn biến đổi nhiều hơn. Nếu phần lớn dòng của bạn là nơi mong đợi và chỉ có đuôi bị lệch thì bạn thường có thể bỏ qua chúng.

Một cách tôi sử dụng để giúp học sinh học cách đánh giá các ô qq của chúng cho tính quy tắc là tạo các mẫu ngẫu nhiên từ một phân phối được biết là bình thường và kiểm tra các mẫu đó. Có những bài tập trong đó họ tạo ra các mẫu có kích thước khác nhau để xem điều gì xảy ra khi N thay đổi và cũng có những bài mà họ lấy phân phối mẫu thực và so sánh nó với các mẫu ngẫu nhiên có cùng kích thước. Các TeachingDemos gói R có một bài kiểm tra cho bình thường mà sử dụng một loại tương tự của kỹ thuật.

# R example - change the 1000 to whatever N you would like to examine
# run several times
y <- rnorm(1000); qqnorm(y); qqline(y)

Đồng ý, nhưng đây là một trong những điểm chính trong câu trả lời của Maarten và đó là lý do tại sao các khoảng được sử dụng để báo hiệu sự không chắc chắn.
Nick Cox

Bạn đang đề nghị câu trả lời này là dư thừa? Tôi nghĩ rằng một phần của điều này là ẩn ý trong câu trả lời của Maarten nhưng tôi không nghĩ đó là điểm chính hay hoàn chỉnh. Câu trả lời của Maarten là tốt. Câu trả lời này là khác nhau nhưng có liên quan.
Giăng

Nó không dư thừa, nhưng một tài liệu tham khảo chéo cho câu trả lời của Maarten có thể sẽ giúp ích cho những độc giả tương lai.
Nick Cox

Để rõ ràng về mối liên hệ giữa điều này và câu trả lời của tôi: nếu bạn nhìn vào bên dưới qenvbạn sẽ thấy rằng kỹ thuật mô phỏng này là cốt lõi của cách các dải tin cậy được tính toán.
Maarten Buis

1
đã thêm một liên kết ...
John
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.