Liệu độc lập thống kê có nghĩa là thiếu quan hệ nhân quả?


40

Hai biến ngẫu nhiên A và B độc lập thống kê. Điều đó có nghĩa là trong DAG của quy trình: và tất nhiên . Nhưng điều đó cũng có nghĩa là không có cửa trước từ B đến A?(AB)P(A|B)=P(A)

Bởi vì sau đó chúng ta sẽ nhận được . Vì vậy, nếu đó là trường hợp, độc lập thống kê tự động có nghĩa là thiếu nhân quả?P(A|do(B))=P(A)

Câu trả lời:


37

Vì vậy, nếu đó là trường hợp, độc lập thống kê tự động có nghĩa là thiếu nhân quả?

Không, và đây là một ví dụ đơn giản với một thông thường đa biến,

set.seed(100)
n <- 1e6
a <- 0.2
b <- 0.1
c <- 0.5
z <- rnorm(n)
x <- a*z + sqrt(1-a^2)*rnorm(n)
y <- b*x - c*z + sqrt(1- b^2 - c^2 +2*a*b*c)*rnorm(n)
cor(x, y)

Với biểu đồ tương ứng,

nhập mô tả hình ảnh ở đây

Ở đây chúng ta có và là độc lập biên (trong trường hợp thông thường đa biến, không tương quan hàm ý độc lập). Điều này xảy ra bởi vì đường dẫn backlink qua chính xác hủy bỏ đường dẫn trực tiếp từ đến , nghĩa là . Do đó . Tuy nhiên, trực tiếp gây ra và chúng ta có , khác với .xyzxycov(x,y)=bac=0.10.1=0E[Y|X=x]=E[Y]=0xyE[Y|do(X=x)]=bxE[Y]=0

Các hiệp hội, can thiệp và phản tác dụng

Tôi nghĩ rằng điều quan trọng là làm cho một số làm rõ ở đây liên quan đến các hiệp hội, can thiệp và phản tác dụng.

Các mô hình nhân quả đòi hỏi các tuyên bố về hành vi của hệ thống: (i) dưới các quan sát thụ động, (ii) dưới sự can thiệp, cũng như (iii) phản tác dụng. Và sự độc lập ở một cấp độ không nhất thiết phải chuyển sang cấp độ khác.

Như ví dụ trên cho thấy, chúng ta không thể có mối liên hệ nào giữa và , nghĩa là , và vẫn là trường hợp các thao tác trên thay đổi phân phối của , nghĩa là, .XYP(Y|X)=P(Y)XYP(Y|do(x))P(Y)

Bây giờ, chúng ta có thể tiến thêm một bước. Chúng ta có thể có các mô hình nhân quả trong đó việc can thiệp vào không làm thay đổi sự phân bố dân số của , nhưng điều đó không có nghĩa là thiếu nguyên nhân phản tác dụng! Đó là, mặc dù , đối với mỗi cá nhân, kết quả của họ sẽ khác nếu bạn thay đổi của mình . Đây chính xác là trường hợp được mô tả bởi user20160, cũng như trong câu trả lời trước đây của tôi ở đây.XYP(Y|do(x))=P(Y)YX

Ba cấp độ này tạo thành một hệ thống phân cấp các nhiệm vụ suy luận nguyên nhân , về mặt thông tin cần thiết để trả lời các truy vấn trên mỗi chúng.


1
Cảm ơn bạn, đó chính xác là những gì tôi đang tìm kiếm. Vì vậy, tôi đoán sự nhầm lẫn của tôi đã được gây ra (không có ý định chơi chữ) khi nghĩ rằng sự độc lập thống kê cũng có nghĩa là phân tách D giữa hai biến. Nhưng nó chỉ hoạt động theo cách khác, đúng không?
dùng1834069

@ user1834069 điều đó đúng, tách d có nghĩa là độc lập, nhưng độc lập không bao hàm sự phân tách d. Đây là hai ví dụ trong đó phân phối không trung thực với biểu đồ và bạn có thể thấy nó phụ thuộc vào sự lựa chọn tham số hóa. Nếu chúng ta thay đổi các tham số, thì sự phụ thuộc sẽ xuất hiện trở lại.
Carlos Cinelli

Ví dụ tốt đẹp. Nếu tôi nhớ chính xác, đây là một trong những giả định không thể kiểm chứng của việc khai thác dữ liệu nguyên nhân khai thác từ dữ liệu quan sát. Đối với các mô hình tuyến tính trong SEM, cuốn sách của Pearl cũng đề cập rằng tập hợp các hệ số dẫn đến phân phối không trung thực là biện pháp 0.
Vimal

37

Giả sử chúng ta có một bóng đèn được điều khiển bởi hai công tắc. Đặt và biểu thị trạng thái của các công tắc, có thể là 0 hoặc 1. Gọi là trạng thái của lighbulb, có thể là 0 (tắt) hoặc 1 (bật). Chúng tôi thiết lập mạch sao cho lighbulb được bật khi hai công tắc ở các trạng thái khác nhau và tắt khi chúng ở cùng trạng thái. Vì vậy, mạch thực hiện độc quyền hoặc chức năng: .S1S2LL=XOR(S1,S2)

Bằng cách xây dựng, có quan hệ nhân quả với và . Với bất kỳ cấu hình nào của hệ thống, nếu chúng ta lật một công tắc, trạng thái của bóng đèn sẽ thay đổi.LS1S2

Bây giờ, giả sử cả hai công tắc được kích hoạt độc lập theo quy trình Bernoulli, trong đó xác suất ở trạng thái 1 là 0,5. Vì vậy, và và là độc lập. Trong trường hợp này, chúng ta biết từ thiết kế của mạch rằng và hơn nữa, . Đó là, việc biết trạng thái của một công tắc sẽ không cho chúng ta biết bất cứ điều gì về việc liệu lighbulb sẽ được bật hay tắt. Vì vậy, và là độc lập, cũng như và .p(S1=1)=p(S2=1)=0.5S1S2P(L=1)=0.5p(LS1)=p(LS2)=p(L)LS1LS2

Nhưng, như trên, có quan hệ nhân quả với và . Vì vậy, độc lập thống kê không có nghĩa là thiếu nhân quả.LS1S2


2
người dùng, bạn đã đúng rằng ví dụ này có nguyên nhân thiếu sự phụ thuộc, như tôi giải thích ở đây stats.stackexchange.com/questions/26300/ , tuy nhiên trong ví dụ này chúng ta cũng có , vì vậy nó không trả lời trực tiếp câu hỏi của OP. P(L|do(S1))=P(L)
Carlos Cinelli

người dùng, câu hỏi xin vui lòng: còn thì sao? Tức là nó có bằng không? Cá nhân tôi nghĩ, với mọi , , nhưng . Tôi có đúng không (Tôi thấy nó không thực sự liên quan, nhưng tôi muốn kiểm tra lại sự hiểu biết của mình)p(L|S1,S2)p(L)(vL,v1,v2){0,1}3p(L=vL|S1=v1)=p(L=vL|S2=v2)=0.5 p(L=vL|S1=v1,S2=v2){0,1}
caveman

0

Dựa trên câu hỏi của bạn, bạn có thể nghĩ như thế này:

P(AB)=P(A)P(B) khi và độc lập. Bạn có thể ngụ ý tương tựAB

P(AB)/P(A)=P(B|A)=P(B) . Cũng thế,

P(AB)/P(B)=P(A|B)=P(A) .

Về vấn đề này, tôi tin rằng độc lập có nghĩa là thiếu nhân quả. Tuy nhiên, sự phụ thuộc không nhất thiết ngụ ý nhân quả.


2
Tôi đang hỏi nếu có nghĩa là ? (sử dụng ký hiệu Pearl Do-tính toán)P ( A | d o ( B ) ) = P ( A )P(AB)=P(A)P(B)P(A|do(B))=P(A)
user1834069 15/07/18
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.