Một số hậu quả tiềm năng của việc thêm kiểm soát rác trong hồi quy của bạn là gì?


7

Giả sử tôi đang chạy hồi quy trong đó biến phụ thuộc của tôi là giết người và biến quan tâm của tôi là truy cập vào các trò chơi video bạo lực. Giả sử tôi cũng ném vào bồn rửa trong bếp liên quan đến các biến kiểm soát của mình-- Tôi có 38 điều khiển nhân khẩu học, 30 điều khiển tội phạm có thể có hoặc không có liên quan, v.v. Một số điều khiển này thậm chí có thể chứa dữ liệu mờ hoặc xấu (lỗi đánh máy, ô trống, v.v.). Một số hậu quả tiêu cực của các hồi quy cẩu thả là gì?

Tôi được một sinh viên tốt nghiệp ngành Thống kê cho biết rằng các điều khiển này sẽ không ảnh hưởng đến giá trị p giữa biến phụ thuộc và biến quan tâm, ngay cả khi các hệ số trên các điều khiển sẽ vô nghĩa. Nhưng nếu điều này là đúng, tại sao tất cả các học giả chỉ ném vào bồn rửa trong nhà bếp trong hồi quy của họ? Có thể các giá trị p trở nên nhỏ hơn thông qua việc bổ sung các điều khiển rác không?


5
Đây là một máy bơm trực giác: nếu bạn có sẵn mẫu nhưng thêm nhiều hơn dự đoán bồn rửa nhà bếp (nhân tiện, tôi thích thuật ngữ này), thì hồi quy của bạn sẽ có và hệ số cho các trò chơi video bạo lực có thể là bất cứ điều gì . Bạn đã thêm quá nhiều tính năng, dẫn đến kết quả quá mức và vô nghĩa. nnR2=1
amip

Câu trả lời:


4

Chúng ta có thể viết công thức cho lỗi tiêu chuẩn của hệ số hồi quy làβ^j

i=1nu^2(nk1)i=1n(xijx¯j)2(1Rj2)

Ở đâu u^2 là phần dư hồi quy, n là số lượng quan sát, k là số lượng hồi quy, và Rj2R2 từ hồi quy của xj trên tất cả các biến độc lập khác.

Nếu các biến bổ sung không có ảnh hưởng đến biến phụ thuộc, các phần duy nhất của công thức sẽ thay đổi sẽ là kRj2, cả hai sẽ làm tăng lỗi tiêu chuẩn, dẫn đến giá trị p lớn hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.