Nhân quả được định nghĩa toán học như thế nào?

Định nghĩa toán học của mối quan hệ nhân quả giữa hai biến ngẫu nhiên là gì?

Cho một mẫu từ phân phối chung của hai biến ngẫu nhiên và , khi nào chúng ta sẽ nói gây ra ? $X$ $Y$ $X$ $Y$

Đối với bối cảnh, tôi đang đọc bài viết này về khám phá nhân quả .

machine-learning causality

— Jane
nguồn

Theo như tôi có thể thấy nhân quả là một khái niệm khoa học chứ không phải toán học. Bạn có thể chỉnh sửa để làm rõ?

— mdewey

@mdewey Tôi không đồng ý. Nhân quả có thể được rút ra bằng các điều khoản hoàn toàn chính thức. Xem ví dụ câu trả lời của tôi.

— Kodiologist

Câu trả lời:

Định nghĩa toán học của mối quan hệ nhân quả giữa hai biến ngẫu nhiên là gì?

Về mặt toán học, một mô hình nhân quả bao gồm các mối quan hệ chức năng giữa các biến. Ví dụ, hãy xem xét hệ thống các phương trình cấu trúc dưới đây:

x = f_{x} (ϵ_{x}) y = f_{y} (x, ϵ_{y})

$x = f_x(\epsilon_{x})\\ y = f_y(x, \epsilon_{y})$

Điều này có nghĩa là xác định một cách chức năng giá trị của (nếu bạn can thiệp vào điều này sẽ thay đổi các giá trị của ) nhưng không phải là cách khác. Về mặt đồ họa, điều này thường được biểu diễn bởi , có nghĩa là đi vào phương trình cấu trúc của y. Là một phụ lục, bạn cũng có thể biểu thị một mô hình nguyên nhân theo các phân phối chung của các biến đối nghịch, tương đương về mặt toán học với các mô hình chức năng . $x$ $y$ $x$ $y$ $x \rightarrow y$ $x$

Cho một mẫu từ phân phối chung của hai biến ngẫu nhiên X và Y, khi nào chúng ta sẽ nói X gây ra Y?

Đôi khi (hoặc hầu hết các lần) bạn không có kiến thức về hình dạng của các phương trình cấu trúc , $f_{x}$ $f_y$ , thậm chí cả hay . Thông tin duy nhất bạn có là phân phối xác suất chung (hoặc các mẫu từ phân phối này). $x\rightarrow y$ $y \rightarrow x$ $p(y,x)$

Điều này dẫn đến câu hỏi của bạn: khi nào tôi có thể khôi phục hướng nhân quả chỉ từ dữ liệu? Hay chính xác hơn là khi nào tôi có thể khôi phục liệu nhập vào phương trình cấu trúc của hay ngược lại, chỉ từ dữ liệu? $x$ $y$

Tất nhiên, không có bất kỳ giả định cơ bản nào về mô hình nhân quả, điều này là không thể . Vấn đề là một số mô hình nguyên nhân khác nhau có thể đòi hỏi phân phối xác suất chung của các biến quan sát. Ví dụ phổ biến nhất là một hệ thống tuyến tính nhân quả với nhiễu gaussian.

Nhưng theo một số giả định nguyên nhân, điều này có thể khả thi --- và đây là những gì mà tài liệu khám phá nhân quả làm việc. Nếu bạn không tiếp xúc trước với chủ đề này, bạn có thể muốn bắt đầu từ Yếu tố suy luận nguyên nhân của Peters, Janzing và Scholkopf, cũng như chương 2 từ Nhân quả của Judea Pearl. Chúng tôi có một chủ đề ở đây trên CV để tham khảo về khám phá nguyên nhân , nhưng chúng tôi chưa có nhiều tài liệu tham khảo được liệt kê ở đó.

Do đó, không chỉ có một câu trả lời cho câu hỏi của bạn, vì nó phụ thuộc vào các giả định mà người ta đưa ra. Bài báo mà bạn đề cập trích dẫn một số ví dụ, chẳng hạn như giả sử một mô hình tuyến tính với nhiễu không phải là gaussian . Trường hợp này được gọi là LINGAN (viết tắt của mô hình chu kỳ phi tuyến tính tuyến tính), đây là một ví dụ trong R:

library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1

# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat") 

# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
#     [,1]  [,2]
# [1,] .     .   
# [2,]  TRUE .

Lưu ý ở đây, chúng ta có một mô hình nhân quả tuyến tính với nhiễu không gaussian trong đó gây ra và lingam phục hồi chính xác hướng nhân quả. Tuy nhiên, lưu ý điều này phụ thuộc rất nhiều vào các giả định của LINGAM. $x_2$ $x_1$

Đối với trường hợp bài báo bạn trích dẫn, họ đưa ra giả định cụ thể này (xem "định đề" của họ):

Nếu , độ dài mô tả tối thiểu của ánh xạ cơ chế X đến Y không phụ thuộc vào giá trị của X, trong khi độ dài mô tả tối thiểu của ánh xạ cơ chế Y đến X phụ thuộc vào giá trị của Y. $x\rightarrow y$

Lưu ý đây là một giả định. Đây là những gì chúng ta sẽ gọi là "điều kiện nhận dạng" của họ. Về cơ bản, định đề áp đặt các hạn chế đối với phân phối chung . Nghĩa là, định đề nói rằng nếu một số hạn chế nhất định giữ trong dữ liệu và nếu các hạn chế khác giữ. Những loại hạn chế có ý nghĩa có thể kiểm tra được (áp đặt các ràng buộc đối với ) là những gì cho phép người ta khôi phục theo hướng từ dữ liệu quan sát. $p(x,y)$ $x \rightarrow y$ $y \rightarrow x$ $p(y,x)$

Như một nhận xét cuối cùng, kết quả khám phá nguyên nhân vẫn còn rất hạn chế, và phụ thuộc vào các giả định mạnh mẽ, hãy cẩn thận khi áp dụng những điều này vào bối cảnh thế giới thực.

— Carlos Cinelli
nguồn

Có một cơ hội bạn tăng câu trả lời của bạn bằng cách nào đó bao gồm một số ví dụ đơn giản với dữ liệu giả mạo xin vui lòng? Ví dụ, đã đọc một chút các yếu tố suy luận nguyên nhân và xem một số bài giảng của Peters, và khung hồi quy thường được sử dụng để thúc đẩy nhu cầu hiểu chi tiết vấn đề (tôi thậm chí không chạm vào công việc ICP của họ). Tôi có ấn tượng (có thể nhầm lẫn) rằng trong nỗ lực của bạn để tránh xa RCM, câu trả lời của bạn bỏ qua tất cả các máy móc mô hình hữu hình thực tế.

— usεr11852 nói Phục hồi Monic

@ usεr11852 Tôi không chắc tôi hiểu ngữ cảnh câu hỏi của bạn, bạn có muốn các ví dụ về khám phá nhân quả không? Có một vài ví dụ trong chính bài báo mà Jane đã cung cấp. Ngoài ra, tôi không chắc tôi hiểu ý của bạn là gì khi "tránh RCM và bỏ đi máy móc mô hình hữu hình thực tế", chúng ta còn thiếu máy móc hữu hình nào trong bối cảnh khám phá nguyên nhân ở đây?

— Carlos Cinelli

Xin lỗi vì sự nhầm lẫn, tôi không quan tâm đến các ví dụ từ giấy tờ. Tôi có thể tự trích dẫn các giấy tờ khác. (Ví dụ: Lopez-Paz và cộng sự CVPR 2017 về hệ số nguyên nhân thần kinh của họ) Điều tôi quan tâm là một ví dụ số đơn giản với dữ liệu giả mà ai đó chạy trong R (hoặc ngôn ngữ yêu thích của bạn) và xem ý bạn là gì. Nếu bạn trích dẫn ví dụ Peters 'et al. cuốn sách và họ có những đoạn mã nhỏ rất hữu ích (và đôi khi chỉ sử dụng lm). Tất cả chúng ta không thể làm việc xung quanh các mẫu dữ liệu quan sát của Tuebingen để có ý tưởng về khám phá nhân quả! :)

— usεr11852 nói Phục hồi Monic

@ usεr11852 chắc chắn, bao gồm một ví dụ giả là tầm thường, tôi có thể bao gồm một người sử dụng lingam trong R. Nhưng bạn có quan tâm giải thích ý của bạn bằng cách "tránh RCM và bỏ máy móc mô hình hữu hình thực tế" không?

— Carlos Cinelli

@ usεr11852 ok cảm ơn bạn đã phản hồi, tôi sẽ cố gắng thêm mã khi thích hợp. Như một nhận xét cuối cùng, kết quả khám phá nguyên nhân vẫn còn rất hạn chế, vì vậy mọi người cần phải rất cẩn thận khi áp dụng những điều này tùy thuộc vào bối cảnh.

— Carlos Cinelli

Có nhiều cách tiếp cận để chính thức hóa quan hệ nhân quả (phù hợp với sự bất đồng triết học đáng kể về quan hệ nhân quả đã có từ nhiều thế kỷ). Một phổ biến là về kết quả tiềm năng. Cách tiếp cận kết quả tiềm năng, được gọi là mô hình nhân quả Rubin , cho rằng đối với mỗi trạng thái nguyên nhân, có một biến ngẫu nhiên khác nhau. Vì vậy, có thể là biến ngẫu nhiên của các kết quả có thể có từ một thử nghiệm lâm sàng nếu một đối tượng dùng thuốc nghiên cứu và có thể là biến ngẫu nhiên nếu anh ta dùng giả dược. Hiệu ứng nhân quả là sự khác biệt giữa và . Nếu trên thực tế $Y_1$ $Y_2$ $Y_1$ $Y_2$ $Y_1 = Y_2$ , chúng tôi có thể nói rằng việc điều trị không có hiệu quả. Mặt khác, chúng ta có thể nói rằng điều kiện điều trị gây ra kết quả.

Mối quan hệ nhân quả giữa các biến cũng có thể được biểu diễn bằng các đồ thị acylical định hướng , có hương vị rất khác nhau nhưng hóa ra lại tương đương về mặt toán học với mô hình Rubin (Wasserman, 2004, phần 17.8).

Wasserman, L. (2004). Tất cả các số liệu thống kê: Một khóa học ngắn gọn trong suy luận thống kê . New York, NY: Mùa xuân. Sê-ri 980-0-387-40272-7.

— Nhà quang học học
nguồn

cảm ơn bạn. Điều gì sẽ là một thử nghiệm cho nó với một bộ mẫu từ phân phối chung?

— Jane

Tôi đang đọc arxiv.org/abs/1804.04622 . Tôi chưa đọc tài liệu tham khảo của nó. Tôi đang cố gắng hiểu ý nghĩa nhân quả dựa trên dữ liệu quan sát.

— Jane

Tôi xin lỗi (-1), đây không phải những gì đang được hỏi, bạn không quan sát cũng không , bạn quan sát một mẫu của các biến thực tế , . Xem giấy Jane đã liên kết.

Y_{1}

$Y_1$

Y_{2}

$Y_2$

X

$X$

Y

$Y$

— Carlos Cinelli

@Vimal: Tôi hiểu trường hợp chúng tôi có "phân phối can thiệp". Chúng tôi không có "phân phối can thiệp" trong cài đặt này và đó là điều khiến nó khó hiểu hơn. Trong ví dụ tạo động lực trong bài báo, họ đưa ra một cái gì đó như . Phân phối có điều kiện của y cho x về cơ bản là phân phối tiếng ồn cộng với một số bản dịch, trong khi đó không giữ cho phân phối có điều kiện của x cho y. Tôi chủ động hiểu ví dụ. Tôi đang cố gắng để hiểu định nghĩa chung cho khám phá quan hệ nhân quả là gì.

(x, y = x^{3} + ϵ)

$(x, y=x^3+\epsilon)$

ϵ

$\epsilon$

— Jane

@Jane cho trường hợp quan sát (cho câu hỏi của bạn), nói chung, bạn không thể suy ra hướng nhân quả hoàn toàn về mặt toán học, ít nhất là cho trường hợp hai biến. Đối với nhiều biến số hơn, theo các giả định bổ sung (không thể kiểm chứng), bạn có thể đưa ra yêu cầu, nhưng kết luận vẫn có thể bị nghi ngờ. Cuộc thảo luận này là rất dài trong các ý kiến. :)

— Tối đa

$X$ $Y$

$X$ $Y$

Một can thiệp là một thay đổi phẫu thuật cho một biến không ảnh hưởng đến các biến nó phụ thuộc vào. Các can thiệp đã được chính thức hóa nghiêm ngặt trong các phương trình cấu trúc và mô hình đồ họa nhân quả, nhưng theo tôi biết, không có định nghĩa nào độc lập với một lớp mô hình cụ thể.

$Y$ $X$

$X$ $Y$

Trong các phương pháp tiếp cận hiện đại đối với quan hệ nhân quả, can thiệp được coi là đối tượng nguyên thủy xác định mối quan hệ nhân quả (định nghĩa 1). Tuy nhiên, theo tôi, sự can thiệp là sự phản ánh và nhất thiết phải phù hợp với động lực mô phỏng.

— zenna
nguồn