Lý thuyết nhân quả đưa ra một lời giải thích khác về cách hai biến có thể độc lập vô điều kiện nhưng phụ thuộc có điều kiện. Tôi không phải là một chuyên gia về lý thuyết nhân quả và rất biết ơn về bất kỳ lời chỉ trích nào sẽ sửa chữa bất kỳ sai lầm nào dưới đây.
Để minh họa, tôi sẽ sử dụng đồ thị chu kỳ có hướng (DAG). Trong các biểu đồ này, các cạnh ( − ) giữa các biến thể hiện mối quan hệ nhân quả trực tiếp. Đầu mũi tên ( ← hoặc → ) chỉ ra hướng của mối quan hệ nhân quả. Như vậy A→B infers rằng A trực tiếp gây ra B , và A←B infers rằng A là trực tiếp gây ra bởi B . A→B→C là con đường nhân quả xâm nhập mà A gián tiếp gây ra C qua B. Để đơn giản, giả sử tất cả các mối quan hệ nhân quả là tuyến tính.
Đầu tiên, hãy xem xét một ví dụ đơn giản về thiên vị gây nhiễu :
Ở đây, một hồi quy bivariable đơn giản sẽ đề nghị một sự phụ thuộc giữa X và Y . Tuy nhiên, không có mối quan hệ nhân quả trực tiếp giữa X và Y . Thay vào đó, cả hai đều do Z trực tiếp gây ra và trong hồi quy đơn giản đơn giản, việc quan sát Z gây ra sự phụ thuộc giữa X và Y , dẫn đến sai lệch do nhiễu. Tuy nhiên, một điều hồi quy đa biến trên Z sẽ loại bỏ các thành kiến và đề nghị không phụ thuộc giữa X và Y .
Thứ hai, hãy xem xét một ví dụ về thiên vị máy va chạm (còn được gọi là thiên vị Berkson hoặc thiên vị Berkson, trong đó thiên vị lựa chọn là một loại đặc biệt):
Ở đây, một hồi quy bivariable đơn giản sẽ cho thấy không có sự phụ thuộc giữa X và Y . Này phù hợp với các DAG, mà suy luận không có mối quan hệ nhân quả trực tiếp giữa X và Y . Tuy nhiên, điều hòa hồi quy đa biến trên Z sẽ tạo ra sự phụ thuộc giữa X và Y cho thấy mối quan hệ nhân quả trực tiếp giữa hai biến có thể tồn tại, trong khi thực tế không tồn tại. Việc đưa Z vào hồi quy đa biến dẫn đến sai lệch máy va chạm.
Thứ ba, xem xét một ví dụ về hủy bỏ ngẫu nhiên:
Chúng ta hãy giả sử rằng α , β , và γ là hệ số con đường và β=−αγ . Một hồi quy bivariable đơn giản sẽ đề nghị không depenence giữa X và Y . Mặc dù X là trong thực tế, một nguyên nhân trực tiếp của Y , hiệu ứng nhiễu của Z trên X và Y tình cờ hủy bỏ tác động của X trên Y . Một điều hòa hồi quy đa biến trên Z sẽ loại bỏ hiệu ứng gây nhiễu của Z trên X vàY , cho phép ước tính tác động trực tiếp củaX lênY , giả sử DAG của mô hình nhân quả là chính xác.
Để tóm tắt:
Confounder dụ: X và Y là phụ thuộc vào suy thoái bivariable và độc lập trong điều hồi quy đa biến trên confounder Z .
Collider dụ: X và Y là độc lập trong hồi quy bivariable và phụ thuộc vào điều regresssion đa biến trên máy gia tốc Z .
Ví dụ hủy bỏ inicdental: X và Y là độc lập trong hồi quy bivarable và phụ thuộc vào điều hòa hồi quy đa biến trên Z gây nhiễu .
Thảo luận:
Kết quả phân tích của bạn không tương thích với ví dụ gây nhiễu, nhưng tương thích với cả ví dụ máy va chạm và ví dụ hủy ngẫu nhiên. Do đó, một lời giải thích tiềm năng là bạn đã sai lạnh trên một biến gia tốc trong hồi quy đa biến của bạn và đã gây ra một mối liên hệ giữa X và Y mặc dù X không phải là một nguyên nhân của Y và Y không phải là một nguyên nhân của X . Ngoài ra, bạn có thể đã điều chỉnh chính xác một yếu tố gây nhiễu trong hồi quy đa biến của mình, điều này đã vô tình loại bỏ tác dụng thực sự của X đối với Y trong hồi quy khả biến của bạn.
Tôi thấy việc sử dụng kiến thức nền tảng để xây dựng các mô hình nhân quả sẽ hữu ích khi xem xét các biến cần đưa vào các mô hình thống kê. Ví dụ, nếu các nghiên cứu ngẫu nhiên chất lượng cao trước đây kết luận rằng X gây ra Z và Y gây ra Z , tôi có thể đưa ra một giả định mạnh mẽ rằng Z là một máy va chạm của X và Y và không dựa trên mô hình thống kê. Tuy nhiên, nếu tôi chỉ có một trực giác rằng X gây ra Z và Y gây ra Z , nhưng không có bằng chứng khoa học mạnh mẽ nào hỗ trợ cho trực giác của tôi, tôi chỉ có thể đưa ra một giả định yếu rằng Zlà một người va chạm của X và Y , vì trực giác của con người có một lịch sử bị sai lầm. Sau đó, tôi sẽ hoài nghi về mối quan hệ nhân quả giữa infering X và Y mà không cần điều tra thêm các mối quan hệ nhân quả của họ với Z . Thay vì hoặc ngoài kiến thức nền tảng, còn có các thuật toán được thiết kế để suy ra các mô hình nguyên nhân từ dữ liệu bằng cách sử dụng một chuỗi các phép thử liên kết (ví dụ: thuật toán PC và thuật toán FCI, xem TETRAD để triển khai Java, PCacheđể thực hiện R). Các thuật toán này rất thú vị, nhưng tôi sẽ không đề xuất dựa vào chúng nếu không có sự hiểu biết mạnh mẽ về sức mạnh và hạn chế của tính toán nguyên nhân và mô hình nguyên nhân trong lý thuyết nhân quả.
Phần kết luận:
Việc xem xét các mô hình nguyên nhân không tha cho điều tra viên giải quyết các cân nhắc thống kê được thảo luận trong các câu trả lời khác ở đây. Tuy nhiên, tôi cảm thấy rằng các mô hình nhân quả tuy nhiên có thể cung cấp một khuôn khổ hữu ích khi nghĩ đến các giải thích tiềm năng cho sự phụ thuộc và độc lập thống kê quan sát được trong các mô hình thống kê, đặc biệt là khi hình dung các yếu tố gây nhiễu và va chạm tiềm năng.
Đọc thêm:
Gelman, Andrew. 2011. " Nhân quả và học thống kê ." Là. J. Xã hội học 117 (3) (tháng 11): 955 Từ966.
Greenland, S, J Pearl và JM Robins. 1999. Sơ đồ nguyên nhân của nghiên cứu dịch tễ học . Dịch tễ học dịch tễ học (Cambridge, Mass.) 10 (1) (tháng 1): 37 mộc48.
Greenland, Sander. 2003. Xu hướng Định lượng Định lượng trong các Mô hình Nhân quả: Xu hướng Cổ điển Vs Collider-Stratization Bias . Cổ dịch tễ học 14 (3) (1 tháng 5): 300 đi 306.
Ngọc trai, Giuđê. 1998. Tại sao không có thử nghiệm thống kê cho sự bối rối, tại sao nhiều người nghĩ rằng có, và tại sao họ gần như đúng .
Ngọc trai, Giuđê. 2009. Nhân quả: Mô hình, lý luận và suy luận . Tái bản lần 2 Nhà xuất bản Đại học Cambridge.
Spirtes, Peter, Clark Glymour và Richard Scheines. 2001. Nhân quả, Dự đoán và Tìm kiếm , Ấn bản thứ hai. Một cuốn sách của Warren.
Cập nhật: Judea Pearl thảo luận về lý thuyết suy luận nguyên nhân và sự cần thiết phải kết hợp suy luận nguyên nhân vào các khóa học thống kê giới thiệu trong ấn bản tháng 11 năm 2012 của Amstat News . Bài giảng Turing Award của ông , mang tên "Cơ giới hóa suy luận nguyên nhân: Một thử nghiệm Turing 'mini' và hơn thế nữa" cũng rất đáng quan tâm.