Vì vậy, nếu đó là trường hợp, độc lập thống kê tự động có nghĩa là thiếu nhân quả?
Không, và đây là một ví dụ đơn giản với một thông thường đa biến,
set.seed(100)
n <- 1e6
a <- 0.2
b <- 0.1
c <- 0.5
z <- rnorm(n)
x <- a*z + sqrt(1-a^2)*rnorm(n)
y <- b*x - c*z + sqrt(1- b^2 - c^2 +2*a*b*c)*rnorm(n)
cor(x, y)
Với biểu đồ tương ứng,
Ở đây chúng ta có và là độc lập biên (trong trường hợp thông thường đa biến, không tương quan hàm ý độc lập). Điều này xảy ra bởi vì đường dẫn backlink qua chính xác hủy bỏ đường dẫn trực tiếp từ đến , nghĩa là . Do đó . Tuy nhiên, trực tiếp gây ra và chúng ta có , khác với .xyzxycov(x,y)=b−a∗c=0.1−0.1=0E[Y|X=x]=E[Y]=0xyE[Y|do(X=x)]=bxE[Y]=0
Các hiệp hội, can thiệp và phản tác dụng
Tôi nghĩ rằng điều quan trọng là làm cho một số làm rõ ở đây liên quan đến các hiệp hội, can thiệp và phản tác dụng.
Các mô hình nhân quả đòi hỏi các tuyên bố về hành vi của hệ thống: (i) dưới các quan sát thụ động, (ii) dưới sự can thiệp, cũng như (iii) phản tác dụng. Và sự độc lập ở một cấp độ không nhất thiết phải chuyển sang cấp độ khác.
Như ví dụ trên cho thấy, chúng ta không thể có mối liên hệ nào giữa và , nghĩa là , và vẫn là trường hợp các thao tác trên thay đổi phân phối của , nghĩa là, .XYP(Y|X)=P(Y)XYP(Y|do(x))≠P(Y)
Bây giờ, chúng ta có thể tiến thêm một bước. Chúng ta có thể có các mô hình nhân quả trong đó việc can thiệp vào không làm thay đổi sự phân bố dân số của , nhưng điều đó không có nghĩa là thiếu nguyên nhân phản tác dụng! Đó là, mặc dù , đối với mỗi cá nhân, kết quả của họ sẽ khác nếu bạn thay đổi của mình . Đây chính xác là trường hợp được mô tả bởi user20160, cũng như trong câu trả lời trước đây của tôi ở đây.XYP(Y|do(x))=P(Y)YX
Ba cấp độ này tạo thành một hệ thống phân cấp các nhiệm vụ suy luận nguyên nhân , về mặt thông tin cần thiết để trả lời các truy vấn trên mỗi chúng.