Tôi sẽ bắt đầu với phần thứ hai của câu hỏi của bạn, liên quan đến sự khác biệt giữa nghiên cứu đối chứng ngẫu nhiên và nghiên cứu quan sát, và sẽ kết thúc nó với phần câu hỏi của bạn liên quan đến "mô hình thực" so với "mô hình nguyên nhân cấu trúc".
Tôi sẽ sử dụng một trong những ví dụ của Pearl, đây là một ví dụ dễ nắm bắt. Bạn nhận thấy rằng khi doanh số bán kem cao nhất (vào mùa hè), tỷ lệ tội phạm cao nhất (vào mùa hè) và khi doanh số bán kem thấp nhất (vào mùa đông), tỷ lệ tội phạm là thấp nhất. Điều này khiến bạn tự hỏi liệu mức độ bán kem có gây ra mức độ tội phạm hay không.
Nếu bạn có thể thực hiện một thử nghiệm kiểm soát ngẫu nhiên, bạn sẽ mất nhiều ngày, giả sử 100 ngày và vào mỗi ngày này sẽ chỉ định ngẫu nhiên mức độ bán kem. Chìa khóa cho sự ngẫu nhiên này, dựa trên cấu trúc nhân quả được mô tả trong biểu đồ bên dưới, là việc gán mức bán kem không phụ thuộc vào mức nhiệt độ. Nếu một thí nghiệm giả định như vậy có thể được thực hiện, bạn sẽ thấy rằng vào những ngày mà doanh số được phân bổ ngẫu nhiên ở mức cao, tỷ lệ tội phạm trung bình không khác biệt về mặt thống kê so với những ngày mà doanh số được chỉ định ở mức thấp. Nếu bạn đã có trong tay những dữ liệu đó, bạn sẽ hoàn toàn ổn định. Tuy nhiên, hầu hết chúng ta phải làm việc với dữ liệu quan sát, trong đó ngẫu nhiên hóa không làm được điều kỳ diệu như trong ví dụ trên. Điều quan trọng, trong dữ liệu quan sát, chúng tôi không biết liệu mức độ Bán hàng Kem được xác định độc lập với Nhiệt độ hay liệu nó phụ thuộc vào nhiệt độ. Kết quả là, bằng cách nào đó chúng ta phải gỡ rối hiệu ứng nhân quả từ mối tương quan đơn thuần.
Yêu cầu của Pearl là các số liệu thống kê không có cách biểu thị E [Y | Chúng tôi đặt X bằng một giá trị cụ thể], trái ngược với E [Y | Điều hòa trên các giá trị của X như được đưa ra bởi phân phối chung của X và Y ]. Đây là lý do tại sao anh ta sử dụng ký hiệu E [Y | do (X = x)] để chỉ kỳ vọng của Y, khi chúng tôi can thiệp vào X và đặt giá trị của nó bằng x, trái ngược với E [Y | X = x] , trong đó đề cập đến điều kiện về giá trị của X và lấy nó làm cho.
Chính xác thì nó có nghĩa gì khi can thiệp vào biến X hoặc đặt X bằng với một giá trị cụ thể? Và nó khác với điều kiện về giá trị của X như thế nào?
Sự can thiệp được giải thích rõ nhất với biểu đồ bên dưới, trong đó Nhiệt độ có tác động đến cả Bán hàng và Tỷ lệ tội phạm của Kem và Bán hàng Kem có tác động đến Tỷ lệ Tội phạm và các biến U là các yếu tố không được đo lường ảnh hưởng đến các biến số nhưng chúng tôi không quan tâm để mô hình hóa các yếu tố này. Mối quan tâm của chúng tôi là tác động nhân quả của việc bán kem đối với tỷ lệ tội phạm và giả sử rằng mô tả nhân quả của chúng tôi là chính xác và đầy đủ. Xem biểu đồ dưới đây.
Bây giờ giả sử rằng chúng ta có thể đặt mức bán kem rất cao và quan sát xem liệu điều đó có được chuyển thành tỷ lệ tội phạm cao hơn hay không. Để làm như vậy, chúng tôi sẽ can thiệp vào Bán hàng Kem, nghĩa là chúng tôi không cho phép Bán hàng Kem đáp ứng một cách tự nhiên với Nhiệt độ, trên thực tế, điều này giúp chúng tôi thực hiện điều mà Pearl gọi là "phẫu thuật" trên biểu đồ bằng cách loại bỏ tất cả các cạnh hướng vào đó Biến đổi. Trong trường hợp của chúng tôi, vì chúng tôi can thiệp vào Bán hàng Kem, chúng tôi sẽ loại bỏ lợi thế từ doanh số Nhiệt độ sang Kem, như được mô tả dưới đây. Chúng tôi đặt mức Bán hàng Kem thành bất cứ thứ gì chúng tôi muốn, thay vì cho phép xác định theo Nhiệt độ. Sau đó tưởng tượng rằng chúng tôi đã thực hiện hai thí nghiệm như vậy, một trong đó chúng tôi đã can thiệp và đặt mức độ bán kem rất cao và một trong đó chúng tôi đã can thiệp và đặt mức bán kem rất thấp, sau đó quan sát cách Crime Rate phản ứng trong từng trường hợp. Sau đó, chúng ta sẽ bắt đầu hiểu được liệu có ảnh hưởng nhân quả giữa Doanh số bán kem và Tỷ lệ tội phạm hay không.
Pearl phân biệt giữa can thiệp và điều hòa. Điều hòa ở đây chỉ đề cập đến việc lọc một bộ dữ liệu. Hãy nghĩ về điều hòa nhiệt độ như tìm kiếm trong bộ dữ liệu quan sát của chúng tôi chỉ trong các trường hợp khi Nhiệt độ là như nhau. Điều hòa không phải lúc nào cũng cho chúng ta hiệu ứng nhân quả mà chúng ta đang tìm kiếm (nó không mang lại cho chúng ta hiệu ứng nhân quả hầu hết thời gian). Điều đó xảy ra rằng điều hòa sẽ cho chúng ta hiệu ứng nhân quả trong bức tranh đơn giản được vẽ ở trên, nhưng chúng ta có thể dễ dàng sửa đổi biểu đồ để minh họa một ví dụ khi điều hòa về Nhiệt độ sẽ không cho chúng ta hiệu ứng nhân quả, trong khi can thiệp vào Bán hàng Kem. Hãy tưởng tượng rằng có một biến khác gây ra Bán hàng Kem, hãy gọi nó là Biến X. Trong biểu đồ sẽ được biểu thị bằng một mũi tên vào Bán hàng Kem. Trong trường hợp đó, điều hòa về nhiệt độ sẽ không mang lại cho chúng ta tác động nhân quả của việc bán kem đối với tỷ lệ tội phạm vì nó sẽ không bị ảnh hưởng trên con đường: Biến X -> Bán kem -> Tỷ lệ tội phạm. Ngược lại, theo định nghĩa, việc can thiệp vào Bán hàng Kem sẽ có nghĩa là chúng ta loại bỏ tất cả các mũi tên vào Kem, và điều đó sẽ cho chúng ta hiệu quả nhân quả của Bán hàng Kem đối với Tỷ lệ Tội phạm.
Tôi sẽ chỉ đề cập rằng những đóng góp lớn nhất của Pearl, theo ý kiến của tôi, là khái niệm về máy va chạm và cách điều hòa trên máy va chạm sẽ khiến các biến độc lập có khả năng bị phụ thuộc.
Pearl sẽ gọi một mô hình với các hệ số nhân quả (hiệu ứng trực tiếp) như được đưa ra bởi E [Y | do (X = x)] mô hình nhân quả cấu trúc. Và các hồi quy trong đó các hệ số được đưa ra bởi E [Y | X] là những gì ông nói rằng các tác giả gọi nhầm là "mô hình thực", nhầm lẫn là, khi họ đang tìm cách ước tính tác động nhân quả của X đối với Y và không chỉ đơn thuần là dự báo Y .
Vì vậy, những gì liên kết giữa các mô hình cấu trúc và những gì chúng ta có thể làm theo kinh nghiệm? Giả sử bạn muốn hiểu tác động nhân quả của biến A đối với biến B. Pearl gợi ý 2 cách để làm như vậy: Tiêu chí cửa sau và tiêu chí Cửa trước. Tôi sẽ mở rộng về trước đây.
Tiêu chí Backdoor: Trước tiên, bạn cần vạch ra chính xác tất cả các nguyên nhân của từng biến và sử dụng tiêu chí Backdoor xác định tập hợp các biến bạn cần điều kiện (và quan trọng là tập hợp các biến bạn cần đảm bảo không điều kiện trên - tức là máy va chạm) để cô lập hiệu ứng nhân quả của A trên B. Như Pearl chỉ ra, điều này có thể kiểm chứng được. Bạn có thể kiểm tra xem bạn đã vạch ra chính xác mô hình nguyên nhân hay chưa. Trong thực tế, điều này nói dễ hơn làm và theo tôi, thách thức lớn nhất với tiêu chí Backdoor của Pearl. Thứ hai, chạy hồi quy, như thường lệ. Bây giờ bạn biết những gì để điều kiện trên. Các hệ số bạn sẽ nhận được sẽ là các hiệu ứng trực tiếp, như được vạch ra trong bản đồ nhân quả của bạn.