Dư lượng bình thường có nghĩa là gì và điều này cho tôi biết gì về dữ liệu của tôi?


13

Câu hỏi khá cơ bản:

Một phân phối bình thường của phần dư từ hồi quy tuyến tính có nghĩa là gì? Về mặt, làm thế nào điều này phản ánh trên dữ liệu ban đầu của tôi từ hồi quy?

Tôi hoàn toàn bối rối, cảm ơn các bạn

Câu trả lời:


5

Hồi quy tuyến tính trong thực tế mô hình các giá trị dự kiến ​​có điều kiện về kết quả của bạn. Điều đó có nghĩa là: nếu bạn biết các giá trị thực của các tham số hồi quy (giả sử β 1 ), đưa ra một giá trị của công cụ dự đoán X của bạn, điền vào phương trình E [ Y | X ] = β 0 + β 1 X sẽ có bạn tính toán giá trị kỳ vọng cho Y khắp nơi quan sát (có thể) có giá trị này đưa ra cho X .β0β1

E[Y|X]= =β0+β1X
YX

Tuy nhiên: bạn không thực sự mong đợi bất kỳ giá trị đơn lẻ nào cho giá trị X đã cho đó chính xác bằng giá trị trung bình (có điều kiện). Không phải vì mô hình của bạn sai, mà bởi vì có một số hiệu ứng bạn chưa tính đến (ví dụ: lỗi đo lường). Vì vậy, các giá trị Y này cho một giá trị X đã cho sẽ dao động xung quanh giá trị trung bình (nghĩa là về mặt hình học: xung quanh điểm của đường hồi quy cho X đóYXYXX ).

Giả định về tính quy tắc, hiện tại, nói rằng sự khác biệt giữa s và khớp E [ Y | X ] tuân theo phân phối chuẩn với giá trị trung bình bằng không. Điều này có nghĩa, nếu bạn có một X giá trị, sau đó bạn có thể lấy mẫu một Y giá trị bằng cách tính toán đầu tiên β 0 + β 1 X (tức là một lần nữa E [ Y | X ] , điểm trên đường hồi quy), lấy mẫu tiếp theo ε từ mà bình thường phân phối và thêm chúng: Y = E [ Y | ]YE[Y|X]XYβ0+β1XE[Y|X]ε

Y'= =E[Y|X]+ε

Nói tóm lại: phân phối bình thường này thể hiện sự thay đổi trong kết quả của bạn trên đầu trang biến thiên được giải thích bởi mô hình.

Lưu ý: trong hầu hết các bộ dữ liệu, bạn không có nhiều giá trị cho bất kỳ X đã cho nàoYX (trừ khi bộ dự đoán của bạn là phân loại), nhưng quy tắc này áp dụng cho toàn bộ dân số, không chỉ các quan sát trong bộ dữ liệu của bạn.

Lưu ý: Tôi đã thực hiện lý do hồi quy tuyến tính với một công cụ dự đoán, nhưng điều tương tự cũng xảy ra: chỉ cần thay thế "dòng" bằng "siêu phẳng" ở trên.


Đây là một lời giải thích tuyệt vời! Một câu hỏi mặc dù: e được phân phối bình thường có nghĩa là bạn cho rằng các giá trị có khả năng nhất cho e nằm trong khoảng -1 đến +1 (sau khi chúng được chuẩn hóa)? Vì vậy, về cơ bản, bạn sử dụng phân phối bình thường thay vì phân phối poisson, bởi vì phân phối bình thường mô hình tốt hơn làm thế nào các giá trị này hoạt động trong cuộc sống thực?
dùng3813234

1

Nó có thể có nghĩa là rất nhiều hoặc nó có nghĩa là không có gì. Nếu bạn phù hợp với một mô hình để có được R-Squared cao nhất, điều đó có nghĩa là bạn đã ngu ngốc. Nếu bạn phù hợp với một mô hình để được phân tích kỹ lưỡng ở chỗ các biến là cần thiết và cần thiết và quan tâm đến việc xác định các ngoại lệ thì bạn đã hoàn thành tốt công việc. Hãy xem ở đây để biết thêm về điều này http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175


0

Định mức của phần dư là một giả định chạy mô hình tuyến tính. Vì vậy, nếu phần dư của bạn là bình thường, điều đó có nghĩa là giả định của bạn là hợp lệ và suy luận mô hình (khoảng tin cậy, dự đoán mô hình) cũng phải hợp lệ. Nó đơn giản mà!


Giả định về tính quy tắc là về lỗi không quan sát được (do đó cần phải có một giả định), chứ không phải về phần dư có thể quan sát được.
DL Dahly

2
Vâng, nhưng bạn sử dụng phần dư để kiểm tra giả định của bạn về lỗi không thể quan sát được.
wcampbell

- đến 
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.