Làm thế nào để giải thích các lỗi hệ số tiêu chuẩn trong hồi quy tuyến tính?


26

Tôi đang tự hỏi làm thế nào để giải thích các lỗi tiêu chuẩn hệ số của hồi quy khi sử dụng hàm hiển thị trong R.

Ví dụ trong đầu ra sau:

lm(formula = y ~ x1 + x2, data = sub.pyth)
        coef.est coef.se
(Intercept) 1.32     0.39   
x1          0.51     0.05   
x2          0.81     0.02   

n = 40, k = 3
residual sd = 0.90, R-Squared = 0.97

Liệu một lỗi tiêu chuẩn cao hơn có ý nghĩa lớn hơn?

Ngoài ra, đối với độ lệch chuẩn còn lại, giá trị cao hơn có nghĩa là mức chênh lệch lớn hơn, nhưng bình phương R cho thấy sự phù hợp rất gần, đây có phải là một mâu thuẫn không?

Câu trả lời:


52

Các ước tính tham số, như trung bình mẫu hoặc hệ số hồi quy OLS, là các thống kê mẫu mà chúng tôi sử dụng để rút ra các kết luận về các tham số dân số tương ứng. Các thông số dân số là những gì chúng ta thực sự quan tâm, nhưng vì chúng ta không có quyền truy cập vào toàn bộ dân số (thường được coi là vô hạn), nên chúng ta phải sử dụng phương pháp này thay thế. Tuy nhiên, có một số sự thật khó chịu đi kèm với phương pháp này. Ví dụ: nếu chúng tôi lấy một mẫu khác và tính toán thống kê để ước tính lại tham số, chúng tôi gần như chắc chắn sẽ thấy rằng nó khác. Hơn nữa, không ước tính nào có khả năng khá khớp với giá trị tham số thực mà chúng ta muốn biết. Trong thực tế, nếu chúng ta làm điều này nhiều lần, tiếp tục lấy mẫu và ước tính mãi mãi, chúng ta sẽ thấy rằng tần số tương đối của các giá trị ước tính khác nhau tuân theo phân phối xác suất. Định lý giới hạn trung tâm cho thấy phân phối này có khả năng là bình thường. Chúng ta cần một cách để định lượng lượng không chắc chắn trong phân phối đó. Đó là những gì lỗi tiêu chuẩn làm cho bạn.

Trong ví dụ của bạn, bạn muốn biết độ dốc của mối quan hệ tuyến tính giữa x1 và y trong dân số, nhưng bạn chỉ có quyền truy cập vào mẫu của mình. Trong mẫu của bạn, độ dốc đó là 0,51, nhưng không biết có bao nhiêu biến thiên trong phân phối lấy mẫu tương ứng của nó, thật khó để biết phải làm gì với số đó. Lỗi tiêu chuẩn, 0,05 trong trường hợp này, là độ lệch chuẩn của phân phối lấy mẫu đó. Để tính toán ý nghĩa, bạn chia ước tính cho SE và tra cứu thương số trên bàn. Vì vậy, SE lớn hơn có nghĩa là tầm quan trọng thấp hơn .

Độ lệch chuẩn còn lại không liên quan gì đến phân phối mẫu của các sườn của bạn. Nó chỉ là độ lệch chuẩn của mẫu có điều kiện trên mô hình của bạn. Không có mâu thuẫn, cũng không thể có. Đối với cách bạn có SD lớn hơn với R ^ 2 cao và chỉ có 40 điểm dữ liệu, tôi đoán bạn có điều ngược lại với giới hạn phạm vi - giá trị x của bạn được lan truyền rất rộng.


Câu trả lời tuyệt vời và rất rõ ràng! Vì vậy, về cơ bản cho câu hỏi thứ hai, SD chỉ ra sự phân tán theo chiều ngang và R ^ 2 chỉ ra sự phân tán tổng thể phù hợp hay theo chiều dọc?
upabove

7
@Dbr, rất vui khi được giúp đỡ. Thông thường chúng ta nghĩ về biến trả lời là nằm trên trục tung và biến dự đoán trên trục hoành. Với thiết lập này, mọi thứ đều theo chiều dọc - hồi quy đang giảm thiểu khoảng cách dọc giữa các dự đoán và biến trả lời (SSE). Tương tự, SD dư là thước đo độ phân tán dọc sau khi đã tính đến các giá trị dự đoán. Cuối cùng, R ^ 2 là tỷ lệ phân tán dọc của các dự đoán của bạn với tổng phân tán dọc của dữ liệu thô của bạn.
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.