Tôi đang chạy một hồi quy OLS lớn trong đó tất cả các biến độc lập (khoảng 400) là các biến giả. Nếu tất cả được bao gồm, có đa hướng hoàn hảo (bẫy biến giả), vì vậy tôi phải bỏ qua một trong các biến trước khi chạy hồi quy.
Câu hỏi đầu tiên của tôi là, biến nào nên được bỏ qua? Tôi đã đọc rằng tốt hơn là bỏ qua một biến có trong nhiều quan sát thay vì một biến chỉ xuất hiện trong một số ít (ví dụ: nếu hầu hết tất cả các quan sát là "nam" hoặc "nữ" và chỉ một số ít là "không xác định ", Bỏ qua" nam "hoặc" nữ "). Điều này có hợp lý không?
Sau khi chạy hồi quy với một biến bị bỏ qua, tôi có thể ước tính giá trị hệ số của biến bị bỏ qua vì tôi biết rằng giá trị trung bình chung của tất cả các biến độc lập của tôi phải là 0. Vì vậy, tôi sử dụng thực tế này để thay đổi giá trị hệ số cho tất cả bao gồm các biến và lấy ước tính cho biến bị bỏ qua. Câu hỏi tiếp theo của tôi là liệu có một số kỹ thuật tương tự có thể được sử dụng để ước tính lỗi tiêu chuẩn cho giá trị hệ số của biến bị bỏ qua. Vì tôi phải chạy lại hồi quy bỏ qua một biến khác (và bao gồm cả biến tôi đã bỏ qua trong hồi quy đầu tiên) để có được ước tính lỗi chuẩn cho hệ số của biến bị bỏ qua ban đầu.
Cuối cùng, tôi nhận thấy rằng các ước tính hệ số tôi nhận được (sau khi định tâm lại khoảng 0) thay đổi một chút tùy thuộc vào biến nào được bỏ qua. Về lý thuyết, sẽ tốt hơn nếu chạy một vài hồi quy, mỗi lần bỏ qua một biến khác nhau, và sau đó lấy trung bình các ước tính hệ số từ tất cả các hồi quy?