Sai lệch biến bị bỏ qua: tôi cần bao gồm các yếu tố dự đoán nào và tại sao?


7

Trong vài tuần qua, tôi đã suy nghĩ về OVB (Sai ​​lệch biến bị bỏ qua) trong bối cảnh hồi quy và giải pháp cho điều đó (làm thế nào để tránh vấn đề này). Tôi đã làm quen với các bài giảng của Shalizi (2.2), nhưng anh ta chỉ mô tả điều này một cách toán học.

Ai đó trong tuần này nói rằng nó khá dễ dàng - giải pháp cho OVB là bao gồm tất cả những dự đoán rằng kiểm soát ảnh hưởng của nhiễu đồng biến, không phải tất cả dự đoán cho biến phụ thuộc Y .

Tôi không chắc điều này có đúng không và vâng, tôi cảm thấy mình thiếu kiến ​​thức sâu hơn.


2
Bạn có thể liên kết đến các bài giảng này?
Matthew Drury

Câu trả lời:


7

Điều này không hẳn là sai, nhưng không phải lúc nào cũng khả thi và cũng không phải là một bữa trưa miễn phí.

Một biến bị bỏ qua có thể gây ra (xem, ví dụ, các ý kiến ​​dưới đây cho những suy nghĩ bổ sung về vấn đề) nếu cả hai (a) liên quan đến kết quả và (b) tương quan với yếu tố dự đoán có ảnh hưởng đến mà bạn quan tâm chủ yếu trong.YXY

Xem xét một ví dụ: Bạn muốn tìm hiểu về tác động nhân quả của việc học thêm vào thu nhập sau này. Một biến khác chắc chắn thỏa mãn các điều kiện (a) và (b) là "động lực" - những người có động lực cao hơn sẽ thành công hơn trong công việc của họ (cho dù họ có học cao hay không) và thường chọn nhận thêm giáo dục, vì họ có khả năng thích học tập, và không cảm thấy quá đau đớn khi học để thi.

Vì vậy, khi so sánh thu nhập của nhân viên có học vấn cao và ít đi học mà không kiểm soát động lực, ít nhất bạn sẽ không so sánh hai nhóm chỉ khác nhau về việc đi học của họ (mà bạn quan tâm đến họ) mà còn về mặt họ động lực, do đó, sự khác biệt quan sát được trong thu nhập không chỉ được quy cho sự khác biệt trong học tập.

Bây giờ, nó thực sự sẽ là một giải pháp để kiểm soát động lực bằng cách đưa nó vào hồi quy. Vấn đề có thể xảy ra là tất nhiên: bạn sẽ có dữ liệu về động lực? Ngay cả khi bạn tự mình thực hiện một cuộc khảo sát (thay vì sử dụng dữ liệu quản trị, điều đó rất có thể sẽ không có mục nhập về động lực), bạn thậm chí sẽ đo lường nó như thế nào?

Về lý do tại sao bao gồm tất cả mọi thứ không phải là một bữa ăn trưa miễn phí: nếu bạn có một mẫu nhỏ, bao gồm tất cả các đồng biến có sẵn có thể nhanh chóng dẫn đến tình trạng thừa chất khi dự đoán là mục tiêu của bạn. Xem ví dụ này thảo luận rất tốt đẹp.


1
Cristoph, bạn có thể muốn chính xác hơn một chút về đoạn thứ hai của mình --- bạn có thể tìm thấy một số ví dụ cho định nghĩa sai lệch này tại đây: stats.stackexchange.com/questions/59369/confounder-def định / thép
Carlos Cinelli

4
Định nghĩa của bạn không làm mất uy tín của các biến trung gian hoặc trình thu thập để điều chỉnh; điều chỉnh cho các biến này gây ra sai lệch độ lệch va chạm hoặc suy giảm hiệu ứng. Nó cũng hoạt động theo một ví dụ thế giới khép kín, trong trường hợp này, bạn phải cho rằng bạn đã đo tất cả các biến gây nhiễu có thể , một giả định hiếm khi được đáp ứng, cũng không được thảo luận. Một định nghĩa đầy đủ về thiên vị gây nhiễu là khá khó khăn.
AdamO

2
Hơn nữa, trong các số liệu thống kê suy luận, điều quan trọng là gắn nhãn "động lực" là một biến số gây nhiễu cho các cuộc thảo luận trước đó. Ngoài ra, ý kiến ​​của bạn chỉ áp dụng cho GLM với các liên kết tuyến tính hoặc nhật ký.
AdamO

9

giải pháp cho OVB là bao gồm tất cả các yếu tố dự đoán kiểm soát tác động của các hiệp phương sai không phải tất cả các yếu tố dự đoán cho biến phụ thuộc Y.

Vâng, điều này là chính xác nếu bạn chính xác hơn về nó. Đối với mục đích nhận dạng, bạn nên bao gồm các biến kiểm soát hiệu ứng gây nhiễu và tránh các biến mở đường dẫn gây nhiễu hoặc làm trung gian cho hiệu ứng bạn đang cố gắng đo (nếu bạn quan tâm đến hiệu ứng tổng thể) --- đó là, bạn nên bao gồm những biến đó thỏa mãn tiêu chí cửa sau . Bạn không nên bừa bãi bao gồm tất cả các dự đoán vềY, nếu theo dự đoán, bạn có nghĩa là bất cứ điều gì "dự đoán" Y --- điều này có thể sai lệch ước tính của bạn.

Cũng vậy, điều đáng chú ý là câu trả lời của Christoph không hoàn toàn chính xác:

một biến bị bỏ qua gây ra sai lệch nếu cả hai (a) liên quan đến kết quả Y và (b) tương quan với yếu tố dự đoán X có ảnh hưởng đến Y mà bạn quan tâm chủ yếu

Đây không phải là sự thật. Các tiêu chí tương quan là không cần thiết cũng không đủ để xác định thế nào là một kẻ gây nhiễu. Đây là một quan niệm sai lầm phổ biến về định nghĩa của các yếu tố gây nhiễu, được minh họa trong câu trả lời khác này.

Tất nhiên, các biến bao gồm đảm bảo xác định địa chỉ chỉ là vấn đề nhận được ước tính nhất quán về số lượng quan tâm nhân quả. Bạn có nhiều vấn đề khác cần giải quyết, chẳng hạn như hiệu quả của ước tính của bạn (vì vậy bạn có thể chọn / tránh các biến làm giảm / tăng phương sai), sai lệch do sai chính tả của biểu mẫu chức năng, v.v.


4
(+1) bạn có thể đưa ra lời giải thích rõ ràng về tiêu chí cửa sau là gì không?
AdamO

3
@AdamO về cơ bản là một tập hợp các biến số ngăn chặn ảnh hưởng của các nguyên nhân phổ biến, không mở các đường dẫn gây nhiễu mới (chẳng hạn như trình thu thập, nhưng trong một số trường hợp như trong hình 3.4 của pdf bạn có thể cần kiểm soát đối với trình tạo ảnh, vì vậy bạn cần để tiếp tục chặn đường dẫn đã mở) và không bao gồm các biến làm trung gian cho hiệu ứng bạn đang cố gắng đo (nếu bạn quan tâm đến hiệu ứng tổng).
Carlos Cinelli

2
Thật vậy, mục đích của yêu cầu là tăng khả năng tiếp cận câu trả lời (rất tốt) của bạn.
AdamO

Bạn đã đoán trước rằng tiêu chí backlink đối phó với hiệu ứng tổng cộng. Bây giờ, trong SCM tuyến tính, có đúng không khi nói rằng nếu SCM của chúng ta được chỉ định đầy đủ bởi chỉ một phương trình cấu trúc thì hiệu ứng trực tiếp có trùng với tổng không? Vậy thì, không có tác dụng gián tiếp tồn tại? Và bất kỳ tham số cấu trúc duy nhất có ý nghĩa tổng hiệu lực? Nếu câu trả lời quá rõ ràng, tôi có thể mở một câu hỏi khác
markowitz

@markowitz không đúng, bạn cần nói rõ ràng rằng tất cả các biến khác không chỉ gây ra cho nhau khi đó, bằng cách giả định rằng bạn đang nói rằng không có tác động gián tiếp.
Carlos Cinelli

5

Về mặt lý thuyết, bao gồm tất cả các yếu tố dự đoán có liên quan sẽ loại bỏ sai lệch biến bị bỏ qua. Tuy nhiên, không phải lúc nào cũng có thể bao gồm tất cả các biến giải thích có liên quan trong hồi quy của bạn (do không nhận thức được các biến có liên quan hoặc thiếu dữ liệu).

Liên quan đến việc thiếu kiến ​​thức về sự thiên vị biến bị bỏ qua. Có một vài bài giảng hay trên OVB. Nhìn xung quanh, một trong những bài giảng toàn diện nhất về xu hướng biến bị bỏ qua có thể là bài này:

https: // ec economtheoryblog.com/2018/05/04/omited-variable-bias

Nó cũng bao gồm một phần thảo luận về các chiến lược có thể chống lại sự thiên vị của biến bị bỏ qua.


1
Bao gồm tất cả các biến có thể làm tổn thương tính chính xác dự đoán của mô hình. Nó cũng có thể tạo ra một vấn đề đa cộng tuyến. Tôi không chắc ý của bạn là gì khi bạn nói "có thể không phải lúc nào cũng khả thi để bao gồm tất cả các biến giải thích có thể".
Michael R. Chernick

1
Sandro, điều này là sai và vấn đề thậm chí còn vượt quá độ chính xác. Bao gồm một số dự đoán sẽ gây ra sai lệch vĩnh viễn cho ước tính của bạn, ngay cả với các mẫu vô hạn, hãy xem stats.stackexchange.com/questions/59369/confounder-def định / .
Carlos Cinelli

Bạn đúng rồi. Tôi có nghĩa là tất cả các biến giải thích có liên quan. Tôi điều chỉnh câu trả lời của mình. Cảm ơn.
Sandro Salter

2
@SandroSalter bạn có ý gì khi nói? Bạn cần phải chính xác ở đây.
Carlos Cinelli

3

Câu trả lời của Carlos là tốt ở chỗ nó giải quyết một thiếu sót lớn trong thực hành mô hình hồi quy. Thuật ngữ OVB rất thiếu chính xác. Ngoại trừ theo cấu trúc toán học không điển hình, việc điều chỉnh các biến khác sẽ thay đổi hiệu ứng ước tính cho một hồi quy chính. Điều này một mình không có nghĩa là tất cả các biến như vậy nên được đưa vào một mô hình.

"Tiêu chí cửa sau" đặc biệt giải quyết sự thiên vị gây nhiễu . Một nhóm các chuyên gia nói chung sẽ không chấp nhận / tin vào kết quả từ các mô hình mà bỏ qua các biến gây nhiễu từ điều chỉnh. Đây là lý do tốt. Các yếu tố gây nhiễu bị bỏ qua đã dẫn đến suy luận hoàn toàn không chính xác trong các nghiên cứu xác nhận lớn, và hơn nữa dẫn đến các chính sách, chỉ dẫn thuốc hoặc bảo hiểm truyền thông gây tốn kém và tổn hại. Thuật ngữ ưa thích ở đây là thiên vị gây nhiễu, thay vì chỉ đơn thuần là OVB. Điều này áp dụng cho tất cả các loại mô hình, bao gồm cả hồi quy tuyến tính phổ biến nhất.

Mô hình phổ biến thứ hai (có lẽ) là hồi quy logistic. Có một loại "thiên vị" khác (có lẽ) phát sinh từ các mô hình logistic không liên quan đến gây nhiễu. Bạn có thể thay đổi hiệu ứng chính bằng cách điều chỉnh các biến không tương thích với biến hồi quy chính. Điều này là do sự không sụp đổ của tỷ lệ cược . Điều này phát sinh khi tiếp xúc chính có sự phân bố không đồng nhất của các hiệp phương sai tiềm ẩn rủi ro cơ bản của kết quả. Độ dốc của sigmoid ước tính mức tích lũy rủi ro "trung bình" trên mỗi đơn vị chênh lệch trong một hồi quy chính bị suy giảm. Kiểu thiên vị này phát sinh khi mục tiêu suy luận là rủi ro cấp độ cá nhân, thay vì trung bình dân số.

nhập mô tả hình ảnh ở đây

Nói chung, lời khuyên cho các nhà lập mô hình là điều chỉnh các biến tiên lượng , hoặc các biến, mặc dù không liên quan đến biến hồi quy chính, là nguyên nhân dự đoán kết quả. Ví dụ có thể là trong một nghiên cứu về ung thư phổi và hút thuốc, các nhóm người tham gia do ô nhiễm môi trường xung quanh. Giả sử hiện tại không có bằng chứng nào cho thấy sự khác biệt về tính khu vực thỏa mãn các tiêu chí cửa sau để làm xáo trộn mối quan hệ hút thuốc - ung thư. Tuy nhiên, sự khác biệt về rủi ro đối với phơi nhiễm môi trường này dự đoán đáng kể nguy cơ ung thư phổi. Điều chỉnh tiếp xúc với môi trường phân tầng tốt hơn những người tham gia này sao cho sự khác biệt rõ ràng giữa hút thuốc và không hút thuốc, và nguy cơ ung thư là rõ ràng.

Một mô tả rất hay về sự khác biệt được tìm thấy ở đây: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3147074/pdf/dyr041.pdf

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.