Tôi đang ở STATA và sử dụng dữ liệu 2010 từ Ipums. Tôi đang cố gắng đo mức chênh lệch lương giữa đàn ông độc thân, đàn ông có vợ, phụ nữ độc thân và phụ nữ đã có chồng. Tôi đã chạy hồi quy đầu tiên của mình và nhận được kết quả như sau:
    lwage |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
     educ |   .1297281   .0003132   414.22   0.000     .1291142    .1303419
      age |   .0130395   .0000535   243.56   0.000     .0129346    .0131444
 uhrswork |   .0454742   .0000613   741.81   0.000      .045354    .0455943
 singlefemale |  -.0749253   .0021686   -34.55   0.000    -.0791756    -.070675
 marriedfemale |   .0853371   .0021692    39.34   0.000     .0810856    .0895886
 marriedmale |   .3149997   .0021153   148.92   0.000     .3108539    .3191455
    _cons |   6.826747    .003847  1774.56   0.000     6.819207    6.834287
Tiếp theo tôi đã thêm tuổi ^ 2 như một biến giải thích bổ sung. Kết quả của tôi đã thay đổi đáng kể:
   lwage |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
     educ |   .1258587   .0003049   412.83   0.000     .1252612    .1264563
      age |   .0961006   .0003096   310.38   0.000     .0954938    .0967075
    agesq |  -.0009427   3.46e-06  -272.14   0.000    -.0009495   -.0009359
 uhrswork |   .0406035   .0000622   652.40   0.000     .0404815    .0407255
 singlefemale |  -.0865127   .0021091   -41.02   0.000    -.0906465    -.082379
 marriedfemale |   -.035098   .0021552   -16.29   0.000    -.0393221    -.030874
 marriedmale |   .2403908    .002075   115.85   0.000     .2363239    .2444578
    _cons |   5.455941   .0062742   869.58   0.000     5.443643    5.468238
Về cơ bản, khi tôi cho rằng tuổi tác có liên quan tuyến tính với logwage, phụ nữ đã kết hôn được ước tính kiếm được nhiều tiền hơn đàn ông độc thân, nhưng khi tôi giả sử dạng bậc hai thì tôi lại bị ngược lại. Cả hai đều có ý nghĩa thống kê. Tại sao chuyện này đang xảy ra? Và làm thế nào để tôi chọn mô hình tốt hơn?
Ngoài ra, điều này có phổ biến trong các ứng dụng khác không? Tôi ngạc nhiên rằng tôi có thể thay đổi dấu hiệu trên một cái gì đó chỉ bằng cách thêm một thuật ngữ bậc hai không liên quan - đây có vẻ như là một nguồn lạm dụng tiềm năng.