Vấn đề bẫy biến giả


10

Tôi đang chạy một hồi quy OLS lớn trong đó tất cả các biến độc lập (khoảng 400) là các biến giả. Nếu tất cả được bao gồm, có đa hướng hoàn hảo (bẫy biến giả), vì vậy tôi phải bỏ qua một trong các biến trước khi chạy hồi quy.

Câu hỏi đầu tiên của tôi là, biến nào nên được bỏ qua? Tôi đã đọc rằng tốt hơn là bỏ qua một biến có trong nhiều quan sát thay vì một biến chỉ xuất hiện trong một số ít (ví dụ: nếu hầu hết tất cả các quan sát là "nam" hoặc "nữ" và chỉ một số ít là "không xác định ", Bỏ qua" nam "hoặc" nữ "). Điều này có hợp lý không?

Sau khi chạy hồi quy với một biến bị bỏ qua, tôi có thể ước tính giá trị hệ số của biến bị bỏ qua vì tôi biết rằng giá trị trung bình chung của tất cả các biến độc lập của tôi phải là 0. Vì vậy, tôi sử dụng thực tế này để thay đổi giá trị hệ số cho tất cả bao gồm các biến và lấy ước tính cho biến bị bỏ qua. Câu hỏi tiếp theo của tôi là liệu có một số kỹ thuật tương tự có thể được sử dụng để ước tính lỗi tiêu chuẩn cho giá trị hệ số của biến bị bỏ qua. Vì tôi phải chạy lại hồi quy bỏ qua một biến khác (và bao gồm cả biến tôi đã bỏ qua trong hồi quy đầu tiên) để có được ước tính lỗi chuẩn cho hệ số của biến bị bỏ qua ban đầu.

Cuối cùng, tôi nhận thấy rằng các ước tính hệ số tôi nhận được (sau khi định tâm lại khoảng 0) thay đổi một chút tùy thuộc vào biến nào được bỏ qua. Về lý thuyết, sẽ tốt hơn nếu chạy một vài hồi quy, mỗi lần bỏ qua một biến khác nhau, và sau đó lấy trung bình các ước tính hệ số từ tất cả các hồi quy?


Bạn có thể làm rõ ý của bạn bằng "ý nghĩa tổng thể của tất cả các biến độc lập của tôi phải là 0" và làm thế nào bạn biết điều này?
vào

Về cơ bản tôi muốn đánh giá tất cả các biến liên quan đến trung bình (trung bình của tất cả các biến). Các hệ số từ hồi quy có liên quan đến biến bị bỏ qua. Vì vậy, khi tôi trừ giá trị trung bình của tất cả các hệ số (bao gồm cả hệ số biến bị bỏ qua là 0) từ mỗi giá trị hệ số, các giá trị được điều chỉnh sẽ trung bình bằng 0 và mỗi giá trị hệ số có thể được xem là khoảng cách từ trung bình.
James Davison

Câu trả lời:


8

Bạn sẽ nhận được các ước tính "giống nhau" cho dù bạn bỏ qua biến nào; các hệ số có thể khác nhau, nhưng các ước tính về số lượng hoặc kỳ vọng cụ thể phải giống nhau trên tất cả các mô hình.

Trong trường hợp đơn giản, hãy cho nam và 0 cho nữ. Sau đó, chúng ta có mô hình: Bây giờ, hãy để cho phụ nữ. Sau đó Giá trị dự kiến ​​của đối với phụ nữ là và cả . Đối với nam giới, đó làE [ y ix i ]xTôi= =1zi=1 E [ y iz i ]

E[yTôi|xTôi]= =xTôiE[yTôi|xTôi= =1]+(1-xTôi)E[yTôi|xTôi= =0]= =E[yTôi|xTôi= =0]+[E[yTôi|xTôi= =1]-E[yTôi|xTôi= =0]]xTôi= =β0+β1xTôi.
zTôi= =1
E[yTôi|zTôi]= =zTôiE[yTôi|zTôi= =1]+(1-zTôi)E[yTôi|zTôi= =0]= =E[yTôi|zTôi= =0]+[E[yTôi|zTôi= =1]-E[yTôi|zTôi= =0]]zTôi= =γ0+γ1zTôi.
yβ0γ0+γ1β0+β1và .γ0

Những kết quả này cho thấy các hệ số từ hai mô hình có liên quan như thế nào. Ví dụ: . Một bài tập tương tự sử dụng dữ liệu của bạn sẽ cho thấy các hệ số "khác nhau" mà bạn nhận được chỉ là tổng và sự khác biệt của nhau.β1= =-γ1


4

James, trước hết tại sao phân tích hồi quy, nhưng không phải ANOVA (có nhiều chuyên gia trong loại phân tích này có thể giúp bạn)? Ưu điểm của ANOVA là tất cả những gì bạn thực sự quan tâm là sự khác biệt về phương tiện của các nhóm khác nhau được mô tả bằng cách kết hợp các biến giả (danh mục hoặc cấu hình duy nhất). Chà, nếu bạn nghiên cứu tác động của từng biến phân loại mà bạn đưa vào, bạn cũng có thể chạy hồi quy.

Tôi nghĩ rằng loại dữ liệu bạn có ở đây được mô tả theo nghĩa phân tích liên hợp : nhiều thuộc tính của đối tượng (giới tính, tuổi tác, giáo dục, v.v.) mỗi loại có một số loại, do đó bạn bỏ qua toàn bộ hồ sơ lớn nhất, không chỉ một biến giả. Một thực tế phổ biến là mã hóa các danh mục trong thuộc tính như sau ( liên kết này có thể hữu ích, bạn có thể không thực hiện phân tích liên hợp ở đây, nhưng mã hóa là tương tự): giả sử bạn có loại (ba, như bạn đề xuất, nam, nữ , không xác định) sau đó, hai cái đầu tiên được mã hóa như bình thường bạn làm bao gồm hai hình nộm (nam, nữ), cho nếu nam, nếu là nữ vàn(1,0)(0,1)(-1,-1)nếu không biết Bằng cách này, kết quả thực sự sẽ được đặt xung quanh thuật ngữ chặn. Tuy nhiên, bạn có thể viết mã theo một cách khác, nhưng sẽ mất lợi thế giải thích được đề cập. Để tổng hợp, bạn thả một danh mục từ mỗi danh mục và mã hóa các quan sát của bạn theo cách được mô tả. Bạn cũng bao gồm thuật ngữ chặn.

Vâng, bỏ qua các danh mục hồ sơ lớn nhất có vẻ tốt cho tôi, mặc dù không quá quan trọng, ít nhất tôi nghĩ nó không trống rỗng. Vì bạn mã hóa các biến theo cách cụ thể, ý nghĩa thống kê chung của các biến giả bao gồm (cả nam nữ, có thể được kiểm tra bằng thử nghiệm F) ngụ ý tầm quan trọng của biến bị bỏ qua.

Nó có thể xảy ra rằng các kết quả hơi khác nhau, nhưng có thể đó là mã hóa sai ảnh hưởng đến điều này?


Xin tha thứ nếu văn bản của tôi không rõ ràng, đó là một nửa đêm ở Litva.
Dmitrij Celov

Tại sao bạn không biết (-1, -1) thay vì (0,0)?
siamii

1

Không biết bản chất chính xác của phân tích của bạn, bạn đã xem xét hiệu ứng mã hóa chưa? Bằng cách này, mỗi biến sẽ đại diện cho tác động của đặc điểm / thuộc tính đó so với tổng thể trung bình thay vì một số loại bỏ qua cụ thể. Tôi tin rằng bạn vẫn sẽ thiếu một hệ số cho một trong các danh mục / thuộc tính - hệ số bạn gán -1 cho. Tuy nhiên, với nhiều hình nộm này, tôi sẽ nghĩ rằng ý nghĩa lớn sẽ tạo ra một nhóm so sánh có ý nghĩa hơn bất kỳ danh mục cụ thể nào bị bỏ qua.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.