Tại sao tính quy phạm của phần dư lại hầu như không quan trọng đối với tất cả các mục đích để ước tính đường hồi quy?


21

Gelman và Hill (2006) viết trên p46 rằng:

Giả định hồi quy thường ít quan trọng nhất là các lỗi thường được phân phối. Trong thực tế, với mục đích ước tính đường hồi quy (so với dự đoán các điểm dữ liệu riêng lẻ), giả định về tính quy tắc hầu như không quan trọng. Do đó, trái ngược với nhiều sách giáo khoa hồi quy, chúng tôi không khuyến nghị chẩn đoán về tính quy tắc của phần dư hồi quy.

Gelman và Hill dường như không giải thích điểm này thêm nữa.

Gelman và Hill có đúng không? Nếu vậy, thì:

  1. Tại sao "hầu như không quan trọng"? Tại sao nó không quan trọng cũng không hoàn toàn không liên quan?

  2. Tại sao tính quy phạm của phần dư lại quan trọng khi dự đoán các điểm dữ liệu riêng lẻ?

Gelman, A., & Hill, J. (2006). Phân tích dữ liệu bằng mô hình hồi quy và mô hình đa cấp / phân cấp. Nhà xuất bản Đại học Cambridge

Câu trả lời:


21

Đối với tính chuẩn tắc ước tính không chính xác là một giả định, nhưng một xem xét chính sẽ là hiệu quả; trong nhiều trường hợp, một công cụ ước tính tuyến tính tốt sẽ hoạt động tốt và trong trường hợp đó (bởi Gauss-Markov), ước tính LS sẽ là tốt nhất trong số những điều đó sẽ ổn. (Nếu đuôi của bạn khá nặng, hoặc rất nhẹ, có thể có ý nghĩa để xem xét một cái gì đó khác)

Trong trường hợp kiểm tra và các TCTD, trong khi tính quy phạm được giả định, thông thường nó không quá quan trọng (một lần nữa, miễn là đuôi không thực sự nặng hoặc nhẹ, hoặc có lẽ là một trong số đó), trong đó, ít nhất là trong - rất- các mẫu nhỏ mà các xét nghiệm và các TCTD điển hình có xu hướng gần với các đặc tính danh nghĩa của chúng (không quá xa mức ý nghĩa hoặc mức độ bao phủ được yêu cầu) và thực hiện tốt (sức mạnh hợp lý cho các tình huống điển hình hoặc các TCTD không quá rộng hơn các phương án thay thế) - khi bạn di chuyển hơn nữa từ công suất trường hợp thông thường có thể là một vấn đề, và trong trường hợp đó, các mẫu lớn thường không cải thiện hiệu quả tương đối, do đó, kích thước hiệu ứng sao cho công suất trung bình trong một thử nghiệm với công suất tương đối tốt, nó có thể rất kém cho các bài kiểm tra giả định tính quy phạm.

Xu hướng này gần với các đặc tính danh nghĩa của các TCTD và mức ý nghĩa trong các thử nghiệm là do một số yếu tố hoạt động cùng nhau (một trong số đó là xu hướng kết hợp tuyến tính của các biến gần với phân phối bình thường miễn là có nhiều giá trị liên quan và không ai trong số họ đóng góp một phần lớn của tổng phương sai).

Tuy nhiên, trong trường hợp của một khoảng thời gian dự đoán dựa trên giả định bình thường, bình thường là tương đối quan trọng hơn, vì chiều rộng của khoảng thời gian phụ thuộc rất nhiều vào sự phân bố của một đơn giá trị. Tuy nhiên, ngay cả ở đó, đối với kích thước khoảng phổ biến nhất (khoảng 95%), thực tế là nhiều phân phối không chính thống có rất gần 95% phân phối của chúng trong khoảng 2 giây có nghĩa là có thể dẫn đến hiệu suất hợp lý của khoảng dự đoán bình thường khi phân phối không bình thường. [Tuy nhiên, điều này không thực hiện quá tốt đến các khoảng hẹp hơn hoặc rộng hơn - giả sử khoảng cách 50% hoặc khoảng 99,9% - mặc dù vậy.]


"Xu hướng kết hợp tuyến tính của các biến có gần với phân phối bình thường." - Tôi cho rằng điều này không được kết nối với Định lý giới hạn trung tâm. Là nó? Nếu không, loại "định lý" này là gì?
Heisenberg

1
@Heisenberg Nó có kết nối với các phiên bản cụ thể của CLT, vâng. (xem phiên bản Lyapunov và Lindeberg tại đây ). Nếu bạn muốn một định lý áp dụng cho các mẫu hữu hạn, chúng ta sẽ xem xét một phiên bản của định lý Berry-Esseen. Nhưng tuyên bố này có ý định quan sát nhiều hơn (do đó việc sử dụng từ "khuynh hướng") hơn là một định lý.
Glen_b -Reinstate Monica

7

2: Khi dự đoán các điểm dữ liệu riêng lẻ, khoảng tin cậy xung quanh dự đoán đó giả định rằng phần dư được phân phối bình thường.

Điều này không khác nhiều so với giả định chung về khoảng tin cậy - để hợp lệ, chúng ta cần hiểu phân phối và giả định phổ biến nhất là tính quy tắc. Ví dụ: khoảng tin cậy tiêu chuẩn xung quanh một giá trị trung bình hoạt động vì phân phối mẫu có nghĩa là tiếp cận tính quy tắc, vì vậy chúng ta có thể sử dụng phân phối az hoặc t

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.