Tại sao việc thêm một thuật ngữ bậc hai vào hồi quy thay đổi các hệ số không liên quan?


4

Tôi đang ở STATA và sử dụng dữ liệu 2010 từ Ipums. Tôi đang cố gắng đo mức chênh lệch lương giữa đàn ông độc thân, đàn ông có vợ, phụ nữ độc thân và phụ nữ đã có chồng. Tôi đã chạy hồi quy đầu tiên của mình và nhận được kết quả như sau:

    lwage |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
     educ |   .1297281   .0003132   414.22   0.000     .1291142    .1303419
      age |   .0130395   .0000535   243.56   0.000     .0129346    .0131444
 uhrswork |   .0454742   .0000613   741.81   0.000      .045354    .0455943
 singlefemale |  -.0749253   .0021686   -34.55   0.000    -.0791756    -.070675
 marriedfemale |   .0853371   .0021692    39.34   0.000     .0810856    .0895886
 marriedmale |   .3149997   .0021153   148.92   0.000     .3108539    .3191455
    _cons |   6.826747    .003847  1774.56   0.000     6.819207    6.834287

Tiếp theo tôi đã thêm tuổi ^ 2 như một biến giải thích bổ sung. Kết quả của tôi đã thay đổi đáng kể:

   lwage |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
     educ |   .1258587   .0003049   412.83   0.000     .1252612    .1264563
      age |   .0961006   .0003096   310.38   0.000     .0954938    .0967075
    agesq |  -.0009427   3.46e-06  -272.14   0.000    -.0009495   -.0009359
 uhrswork |   .0406035   .0000622   652.40   0.000     .0404815    .0407255
 singlefemale |  -.0865127   .0021091   -41.02   0.000    -.0906465    -.082379
 marriedfemale |   -.035098   .0021552   -16.29   0.000    -.0393221    -.030874
 marriedmale |   .2403908    .002075   115.85   0.000     .2363239    .2444578
    _cons |   5.455941   .0062742   869.58   0.000     5.443643    5.468238

Về cơ bản, khi tôi cho rằng tuổi tác có liên quan tuyến tính với logwage, phụ nữ đã kết hôn được ước tính kiếm được nhiều tiền hơn đàn ông độc thân, nhưng khi tôi giả sử dạng bậc hai thì tôi lại bị ngược lại. Cả hai đều có ý nghĩa thống kê. Tại sao chuyện này đang xảy ra? Và làm thế nào để tôi chọn mô hình tốt hơn?

Ngoài ra, điều này có phổ biến trong các ứng dụng khác không? Tôi ngạc nhiên rằng tôi có thể thay đổi dấu hiệu trên một cái gì đó chỉ bằng cách thêm một thuật ngữ bậc hai không liên quan - đây có vẻ như là một nguồn lạm dụng tiềm năng.

Câu trả lời:


2

Y= =β1+β2X+BạnY= =α1+α2X+α3X2+V

Trong các lĩnh vực khác, vấn đề là thuật ngữ lỗi có khả năng tương quan với các biến hồi quy của bạn.

Đừng sợ: chạy tiền lương cho giáo dục là một đặc điểm kỹ thuật phổ biến. Tìm kiếm một cái gì đó như

giáo dục tiền lương nội sinh

nên đưa ra một loạt các giấy tờ đối xử với chủ đề.


1

Đây là một hiện tượng nổi tiếng được gọi là collinearity. Về cơ bản hai biến độc lập của bạn (tuổi và bình phương tuổi) có mối tương quan mạnh mẽ. Khi có sự cộng tác, các ước tính hệ số có thể thay đổi đáng kể. Để khắc phục vấn đề này, bạn có thể sử dụng hồi quy mạnh, chẳng hạn như hồi quy sườn.


1

Đề xuất của @OccupyGezi là tốt - bạn nên kiểm tra sự cộng tác nghiêm trọng, điều đó có thể khiến các ước tính không ổn định và không đáng tin cậy vì lý do kỹ thuật thuần túy.

Đối với việc lựa chọn giữa các mô hình, có các tiêu chí thống kê kỹ thuật, thuần túy, nhưng cũng có bản chất kinh tế của vấn đề, không nên quên: bằng cách bao gồm biến "bình phương tuổi" mà bạn đưa ra mối quan hệ "ngược chiều" logarit của tiền lương và tuổi, tức là logarit của đỉnh lương ở một số tuổi, và sau đó bắt đầu giảm.

Thực tế là hệ số trên bình phương tuổi là âm trong khi hệ số theo tuổi là dương, cung cấp bằng chứng hỗ trợ cho mối quan hệ như vậy. Nhưng vì có thể là trường hợp ước tính hệ số bị ảnh hưởng bởi tính đa hướng, sẽ tốt hơn nếu bạn có thể sao lưu yêu cầu về mối quan hệ ngược chiều với các đối số kinh tế hoặc thông tin ngoài mẫu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.