Hồi quy của trên không cần phải là nguyên nhân nếu có các biến bị bỏ qua ảnh hưởng đến cả và . Nhưng nếu không cho các biến bị bỏ qua và lỗi đo lường, có phải là một hồi quy nguyên nhân? Đó là, nếu mọi biến có thể được bao gồm trong hồi quy?
Hồi quy của trên không cần phải là nguyên nhân nếu có các biến bị bỏ qua ảnh hưởng đến cả và . Nhưng nếu không cho các biến bị bỏ qua và lỗi đo lường, có phải là một hồi quy nguyên nhân? Đó là, nếu mọi biến có thể được bao gồm trong hồi quy?
Câu trả lời:
Không, không phải vậy, tôi sẽ chỉ cho bạn một số mẫu.
Đầu tiên là nhân quả ngược . Xét mô hình nhân quả là , trong đó và là các biến ngẫu nhiên gaussian tiêu chuẩn. Khi đó , vì không gây ra , nhưng sẽ phụ thuộc vào .
Ví dụ thứ hai là kiểm soát các máy va chạm (xem tại đây ). Xét mô hình nhân quả , nghĩa là không gây ra và là nguyên nhân phổ biến. Nhưng lưu ý rằng, nếu bạn chạy hồi quy bao gồm , hệ số hồi quy của sẽ không bằng 0, vì điều kiện dựa trên nguyên nhân chung sẽ tạo ra mối liên hệ giữa và (bạn có thể muốn xem ở đây cũng như Phân tích đường dẫn trong Hiện diện của một máy va chạm có điều kiện ).
Tổng quát hơn, hồi quy của trên sẽ là nguyên nhân nếu các biến được bao gồm trong hồi quy thỏa mãn tiêu chí cửa sau .
Ngoài câu trả lời quan trọng của Carlos Cinelli cho câu hỏi này, có một vài lý do nữa cho thấy các hệ số hồi quy có thể không phải là nguyên nhân.
Thứ nhất, lỗi chính tả mô hình có thể làm cho các tham số không phải là nguyên nhân. Chỉ vì bạn có tất cả các biến có liên quan trong mô hình của mình không có nghĩa là bạn đã điều chỉnh chúng theo cách chính xác. Như một ví dụ rất đơn giản, hãy xem xét một biến được phân phối đối xứng quanh 0. Giả sử rằng biến kết quả của bạn bị ảnh hưởng bởi theo cách . Hồi quy trên (trái ngược với ) sau đó sẽ đưa ra hệ số ước tính cho khoảng 0, thiên vị rõ ràng, mặc dù bạn đã được điều chỉnh cho tất cả (chỉ) biến có ảnh hưởng đến .
Thứ hai, và liên quan đến chủ đề nhân quả ngược, cũng có nguy cơ bạn có thể có sai lệch lựa chọn , tức là mẫu của bạn đã được chọn theo cách không đại diện cho dân số mà bạn muốn rút ra suy luận của mình. Hơn nữa, dữ liệu bị thiếu cũng có thể giới thiệu sai lệch nếu dữ liệu không bị thiếu hoàn toàn ngẫu nhiên.