Tôi đang ở STATA và sử dụng dữ liệu 2010 từ Ipums. Tôi đang cố gắng đo mức chênh lệch lương giữa đàn ông độc thân, đàn ông có vợ, phụ nữ độc thân và phụ nữ đã có chồng. Tôi đã chạy hồi quy đầu tiên của mình và nhận được kết quả như sau:
lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
educ | .1297281 .0003132 414.22 0.000 .1291142 .1303419
age | .0130395 .0000535 243.56 0.000 .0129346 .0131444
uhrswork | .0454742 .0000613 741.81 0.000 .045354 .0455943
singlefemale | -.0749253 .0021686 -34.55 0.000 -.0791756 -.070675
marriedfemale | .0853371 .0021692 39.34 0.000 .0810856 .0895886
marriedmale | .3149997 .0021153 148.92 0.000 .3108539 .3191455
_cons | 6.826747 .003847 1774.56 0.000 6.819207 6.834287
Tiếp theo tôi đã thêm tuổi ^ 2 như một biến giải thích bổ sung. Kết quả của tôi đã thay đổi đáng kể:
lwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
educ | .1258587 .0003049 412.83 0.000 .1252612 .1264563
age | .0961006 .0003096 310.38 0.000 .0954938 .0967075
agesq | -.0009427 3.46e-06 -272.14 0.000 -.0009495 -.0009359
uhrswork | .0406035 .0000622 652.40 0.000 .0404815 .0407255
singlefemale | -.0865127 .0021091 -41.02 0.000 -.0906465 -.082379
marriedfemale | -.035098 .0021552 -16.29 0.000 -.0393221 -.030874
marriedmale | .2403908 .002075 115.85 0.000 .2363239 .2444578
_cons | 5.455941 .0062742 869.58 0.000 5.443643 5.468238
Về cơ bản, khi tôi cho rằng tuổi tác có liên quan tuyến tính với logwage, phụ nữ đã kết hôn được ước tính kiếm được nhiều tiền hơn đàn ông độc thân, nhưng khi tôi giả sử dạng bậc hai thì tôi lại bị ngược lại. Cả hai đều có ý nghĩa thống kê. Tại sao chuyện này đang xảy ra? Và làm thế nào để tôi chọn mô hình tốt hơn?
Ngoài ra, điều này có phổ biến trong các ứng dụng khác không? Tôi ngạc nhiên rằng tôi có thể thay đổi dấu hiệu trên một cái gì đó chỉ bằng cách thêm một thuật ngữ bậc hai không liên quan - đây có vẻ như là một nguồn lạm dụng tiềm năng.