Tại sao người gây nhiễu phải có quan hệ nhân quả với kết quả? Nó sẽ đủ để người gây nhiễu có liên quan đến kết quả?
Không, nó không đủ.
Hãy bắt đầu với trường hợp bạn có thể có một biến liên quan đến kết quả và điều trị, nhưng việc kiểm soát nó sẽ làm sai lệch ước tính của bạn.
Z
Trong trường hợp này, không có gì khó hiểu, bạn có thể ước tính trực tiếp ảnh hưởng của X đến Y.
Tuy nhiên, lưu ý rằng Z có liên quan đến cả điều trị và kết quả. Nhưng nó vẫn không phải là một kẻ gây nhiễu. Trong thực tế, nếu bạn kiểm soát Z trong trường hợp này, bạn sẽ thiên vị ước tính của mình. Tình huống này được gọi là M-bias (vì cấu trúc biểu đồ).
XY
Ở đây, một lần nữa, Z được liên kết với X và Y, nhưng nó không phải là đồng sáng lập. Bạn không nên kiểm soát nó.
Bây giờ, đáng chú ý rằng ngay cả khi một biến có liên quan đến kết quả , thì nó cũng không nhất thiết phải là một yếu tố gây nhiễu.
Hãy xem trường hợp của người hòa giải, trong biểu đồ đơn giản dưới đây:
Nếu bạn muốn đo tổng tác động của D đối với Y, bạn không nên kiểm soát những thứ làm trung gian cho hiệu ứng --- trong trường hợp này M. Đó là, M có liên quan nhân quả với Y, nhưng nó không phải là một yếu tố gây nhiễu đối với tổng tác dụng của D lên Y.
Tuy nhiên thông báo, mà xác định confouding là dễ dàng hơn nhiều so với việc xác định những gì một confounder là. Đối với một cuộc thảo luận chặt chẽ hơn về định nghĩa của confouder , bạn có thể muốn đọc bài viết này của VanderWeele và Shpitser.
Tại sao điều này là trường hợp? Bởi vì khái niệm chính ở đây là khái niệm gây nhiễu, không phải là gây nhiễu. Đối với bạn câu hỏi nghiên cứu, bạn nên tự hỏi "làm thế nào tôi có thể loại bỏ gây nhiễu?" thay vì "biến này có phải là một yếu tố gây nhiễu không?".
Và như một lưu ý cuối cùng, điều đáng nói là những quan niệm sai lầm này vẫn còn phổ biến. Chỉ để minh họa, lấy trích dẫn này từ một bài báo năm 2016 :
Suy luận nguyên nhân trong trường hợp không có thí nghiệm ngẫu nhiên hoặc thiết kế bán thí nghiệm mạnh đòi hỏi phải điều hòa thích hợp trên tất cả các biến tiền xử lý dự đoán cả điều trị và kết quả, còn được gọi là hiệp phương sai.
Như chúng ta đã chỉ ra trong các ví dụ trước, điều này không chính xác. Các yếu tố gây nhiễu không phải là "tất cả các biến số tiền xử lý dự đoán cả điều trị và kết quả". Kiểm soát tất cả chúng có thể không cần thiết để loại bỏ nhiễu hoặc thậm chí có thể làm sai lệch kết quả của bạn. Pearl có một cái nhìn tổng quan rất tốt về gây nhiễu ở đây.