Khi nào thì không phù hợp để kiểm soát một biến?


15

Tôi có thể nghĩ về ít nhất một ví dụ ngây thơ. Giả sử tôi muốn nghiên cứu mối quan hệ giữa X và Z. Tôi cũng nghi ngờ rằng Y ảnh hưởng đến Z, vì vậy tôi kiểm soát Y. Tuy nhiên, hóa ra, tôi không biết, X gây ra Y và Y gây ra Z. Do đó, bằng cách kiểm soát đối với Y, tôi "che đậy" mối quan hệ giữa X và Z, vì X độc lập với Z đã cho Y.

Bây giờ, trong ví dụ trước, có thể xảy ra trường hợp các mối quan hệ tôi nên nghiên cứu là mối quan hệ giữa X và Y và Y và Z. Tuy nhiên, nếu tôi biết những điều đó là tiên nghiệm, tôi sẽ không làm khoa học nơi đầu tiên Nghiên cứu mà tôi DID thực hiện cho thấy rằng không có mối quan hệ nào giữa X và Z, đó không phải là trường hợp .... X và Z có liên quan.

Điều này được minh họa trong sơ đồ phụ thuộc sau đây. Trong kịch bản đúng, Z phụ thuộc vào X và Y và X và Y là độc lập. Chúng tôi kiểm soát Y một cách đúng đắn để xác định mối quan hệ giữa X và Z. Trong kịch bản bên trái Z phụ thuộc vào Y phụ thuộc vào X. X và Z độc lập với Y, do đó mối quan hệ giữa X và Z được "che đậy" bằng cách kiểm soát Y.

variable_relationships

Câu hỏi của tôi về cơ bản là "Khi nào thì thích hợp để kiểm soát biến Y và khi nào thì không?" ... Có thể khó hoặc không thể điều tra đầy đủ mối quan hệ giữa X và Y, nhưng, ví dụ, kiểm soát Y ở một mức nhất định là một lựa chọn. Làm thế nào để chúng ta quyết định trước khi tiến hành nghiên cứu của chúng tôi, và những cạm bẫy phổ biến của việc kiểm soát quá nhiều hoặc quá ít là gì?

Trích dẫn đánh giá cao.


7
Để đưa ra một ví dụ, tình huống chính xác của bạn xuất hiện trong việc đánh giá tác động của phân biệt chủng tộc. Gọi là chủng tộc. Gọi Z là tiền lương. Hãy để Y là giáo dục. Rõ ràng giáo dục ảnh hưởng đến tiền lương, vì vậy bạn muốn kiểm soát điều đó, NHƯNG nếu sự phân biệt chủng tộc khiến một thiểu số chủng tộc nhận được giáo dục tồi tệ hơn thì kiểm soát giáo dục sẽ che đậy sự phân biệt đối xử đó. Ví dụ. xem Neal và Johnson (1996) . Như câu trả lời của Alexis chỉ ra, bạn cần đi vào chi tiết vấn đề của mình. Không có một nút đơn giản để nhấn mà giải quyết mọi thứ. XZY
Matthew Gunn

1
Tôi không có hy vọng cho một nút đơn giản để nhấn. Thật vậy, tôi đã khá thất vọng nếu câu hỏi của tôi hóa ra lại có một câu trả lời tầm thường. :)
Scott

1
@Repmat Có. Tuy nhiên, 4 giả định của ước tính IV hiếm khi được đáp ứng và ngay cả khi có, sức mạnh của các hiệp hội liên quan có thể khiến ước tính IV cho kết quả sai lệch. Xem, ví dụ, Ước tính nguyên nhân của Hernán và Robins (trích dẫn đầy đủ và liên kết trong câu trả lời của tôi), chương 16: Ước tính các biến công cụ.
Alexis

1
@Alexis Đương nhiên, IV rất khó đến ... "Không có bữa trưa miễn phí" và tất cả, tuy nhiên khi bạn làm thế, bạn sẽ thường biết điều đó với rất ít hoặc không nghi ngờ gì.
Trả lời

1
@Repmat ... các giả định cho các ước tính IV hợp lệ đòi hỏi nhiều hơn DAG trong hình ... chúng thực sự khá yếu.
Alexis

Câu trả lời:


7

Điều hòa (tức là điều chỉnh) xác suất của một số kết quả đưa ra một số yếu tố dự đoán về các biến thứ ba được áp dụng rộng rãi, nhưng như bạn chỉ ra một cách chính xác, thực sự có thể đưa ra sự thiên vị vào ước tính kết quả như là một đại diện cho các tác động nhân quả . Điều này thậm chí có thể xảy ra với các định nghĩa "cổ điển" về một yếu tố gây nhiễu tiềm ẩn, bởi vì cả chính yếu tố gây nhiễu và dự đoán lợi ích đều có thể có thêm các yếu tố gây nhiễu ngược dòng. Ví dụ, trong DAG bên dưới, là một yếu tố gây nhiễu cổ điển về tác động nhân quả của E đối với D , bởi vì (1) nó gây ra và do đó được liên kết với E và (2) được liên kết với D vì nó được liên kết với DLEDED đó là liên kết với D . Tuy nhiên, điều hòa hoặc phân tầng P ( D | E ) trên L (một "máy va chạm") sẽ tạo ra các ước tính nguyên nhân sai lệch về tác động của E đối với D L bị nhầm với D bởi biến U 2 không được đo lườngvà L bị nhầm lẫn với E bởi biến không đo lường U 1 .U2DP(D|E)LEDLDU2LEU1

DAG

Hiểu được các biến cần điều kiện hoặc phân tầng phân tích của một người để đưa ra ước tính nguyên nhân không thiên vị đòi hỏi phải xem xét cẩn thận các DAG có thể sử dụng các tiêu chí để nhận dạng hiệu ứng nhân quả, không có nguyên nhân phổ biến nào không bị chặn bởi các đường dẫn ngược được mô tả bởi Pearl, Robins và các yếu tố khác . Không có vết cắt ngắn. Tìm hiểu các mẫu gây nhiễu phổ biến. Tìm hiểu các mẫu thiên vị lựa chọn phổ biến. Thực hành.

Người giới thiệu

Greenland, S., Pearl, J. và Robins, JM (1999). Sơ đồ nhân quả cho nghiên cứu dịch tễ học . Dịch tễ học , 10 (1): 37 Ném48.

Hernán, MA và Robins, JM (2018). Suy luận nhân quả . Chapman & Hội trường / CRC, Boca Raton, FL

Maldonado, G. và Greenland, S. (2002). Ước tính tác động nhân quả . Tạp chí quốc tế về dịch tễ học , 31 (2): 422 Từ438.

Ngọc trai, J. (2000). Nhân quả: Mô hình, lý luận và suy luận . Nhà xuất bản Đại học Cambridge.


12

Tôi tin rằng câu trả lời nhanh một câu cho câu hỏi của bạn,

Khi nào thì thích hợp để điều khiển biến Y và khi nào thì không?

là "tiêu chí cửa sau".

Mô hình nguyên nhân cấu trúc của Judea Pearl có thể cho bạn biết chắc chắn biến nào là đủ (và khi cần thiết) để điều hòa, để suy ra tác động nhân quả của biến này đến biến khác. Cụ thể, điều này được trả lời bằng tiêu chí cửa sau, được mô tả trong trang 19 của bài đánh giá này của Pearl.

Nhắc nhở chính là nó đòi hỏi bạn phải biết mối quan hệ nhân quả giữa các biến (dưới dạng mũi tên định hướng trong biểu đồ). Không có cách nào khác. Đây là nơi mà sự khó khăn và chủ quan có thể xảy ra. Mô hình nguyên nhân cấu trúc của Pearl chỉ cho phép bạn biết cách trả lời đúng câu hỏi được đưa ra cho mô hình nguyên nhân (nghĩa là đồ thị có hướng), tập hợp các mô hình nhân quả có thể được phân phối dữ liệu hoặc cách tìm cấu trúc nguyên nhân bằng cách thực hiện đúng thí nghiệm. Nó không cho bạn biết cách tìm cấu trúc nhân quả đúng chỉ được phân phối dữ liệu. Trong thực tế, nó tuyên bố rằng điều này là không thể nếu không sử dụng kiến ​​thức / trực giác bên ngoài về ý nghĩa của các biến.

Các tiêu chí cửa sau có thể được nêu ra như sau:

Để tìm tác động nhân quả của đến Y , một tập hợp các nút biến S là đủ để được điều hòa miễn là nó thỏa mãn cả hai tiêu chí sau:XY,S

1) Không có phần tử nào trong là hậu duệ của XSX

2) chặn tất cả các đường dẫn "cửa sau" giữa XYSXY

Ở đây, một "back-door" con đường đơn giản chỉ là một con đường của mũi tên bắt đầu tại và kết thúc với một mũi tên trỏ vào X . (Hướng mà tất cả các mũi tên khác không quan trọng.) Và "chặn", chính nó, là một tiêu chí có ý nghĩa cụ thể, được đưa ra trong trang 11 của liên kết trên. Đây là tiêu chí tương tự mà bạn sẽ đọc khi tìm hiểu về "Phân tách D". Cá nhân tôi thấy rằng chương 8 của Nhận dạng mẫu và Học máy của Giám mục mô tả khái niệm chặn trong phân tách D tốt hơn nhiều so với nguồn Ngọc tôi liên kết ở trên. Nhưng nó như thế này:YX.

Một tập hợp các nút, chặn một đường dẫn giữa XY nếu nó thỏa mãn ít nhất một trong các tiêu chí sau:S,XY

1) Một trong các nút trong đường dẫn, cũng ở phát ra ít nhất một mũi tên trên đường dẫn (tức là mũi tên đang chỉ ra khỏi nút)S,

2) Một nút không thuộc cũng không phải là tổ tiên của một nút trong S có hai mũi tên trong đường dẫn "va chạm" với nó (tức là gặp trực tiếp)SS

Đây là một hoặc một tiêu chí, không giống như tiêu chí chung cửa sau là một tiêu chí.

Để rõ ràng về tiêu chí cửa sau, điều nó nói với bạn là, đối với một mô hình nguyên nhân nhất định, khi điều chỉnh một biến đủ, bạn có thể tìm hiểu tác động nhân quả từ phân phối xác suất của dữ liệu. (Như chúng ta biết, phân phối chung không đủ để tìm hành vi nguyên nhân vì nhiều cấu trúc nhân quả có thể chịu trách nhiệm cho cùng một phân phối. Đây là lý do tại sao mô hình nhân quả cũng được yêu cầu.) Phân phối có thể được ước tính bằng cách sử dụng thống kê thông thường / phương pháp học máy trên dữ liệu quan sát. Miễn là bạn biết rằng cấu trúc nhân quả cho phép điều chỉnh một biến (hoặc tập hợp các biến), ước tính của bạn về tác động nhân quả của một biến này cũng giống như ước tính của bạn về phân phối dữ liệu mà bạn có được thông qua các phương pháp thống kê.

Dưới đây là những gì chúng tôi tìm thấy khi chúng tôi áp dụng tiêu chí cửa sau cho hai sơ đồ của bạn:

Trong trường hợp không thực hiện có tồn tại một con đường trở lại cửa từ đến X . Vì vậy, đúng là Y chặn "tất cả" đường dẫn cửa sau, bởi vì không có đường nào. Tuy nhiên, trong sơ đồ bên trái, Y là hậu duệ trực tiếp của X , trong khi ở sơ đồ bên phải thì không. Do đó, Y tuân theo tiêu chí cửa sau trong sơ đồ bên phải, nhưng không tuân theo bên trái. Đây là những kết quả không đáng ngạc nhiên.ZX.YYX,Y

Có gì ngạc nhiên, tuy nhiên, đó là trong sơ đồ đúng, miễn là nó là bức tranh hoàn chỉnh, bạn không cần điều kiện về để có được những tác động nhân quả đầy đủ của X trên Z . (Nói một cách khác, các rỗng bộ đáp ứng các tiêu chí back-door, và vì thế, đủ để điều hòa.) Trực giác này là đúng bởi vì giá trị của X là không liên quan đến của Y như vậy cho đủ dữ liệu, bạn có thể chỉ đơn giản là trung bình trong giá trị của Y để cách ly ảnh hưởng của Y trên Z . Một sự phản đối cho đến thời điểm này có thể là dữ liệu bị hạn chế, do đó bạn không có phân phối đại diện củaYXZXYYYZ.Giá trị Y. Nhưng nhớ lại rằng tiêu chí cửa sau giả định rằng bạn có phân phối xác suất của dữ liệu. Trong trường hợp đó bạn phân tích có thể cách ly Y . Đặt lề trên một tập dữ liệu hữu hạn chỉ là ước tính. Ngoài ra, lưu ý rằngrấtkhókhả năng đây là bức tranh hoàn chỉnh. Có nhiều yếu tố có khả năng tác động bên ngoài mà X . Nếu những yếu tố đó cũng được liên kết với Y theo bất kỳ cách nào, thì phải thực hiện thêm nhiều việc nữa để xem Y có phải được điều hòa hay không, hoặc thậm chí là đủ. Nếu bạn vẽ một mũi tên khác chỉ từ Y đến X thì Y trở nên cần thiết để kiểm soát.YY.X.YYYXY

Tất nhiên, đó là những ví dụ rất đơn giản trong đó trực giác đủ để biết khi nào có thể hoặc không thể kiểm soát được. Nhưng đây là một vài ví dụ nữa khi không rõ ràng bằng cách nhìn vào sơ đồ và bạn có thể sử dụng tiêu chí cửa sau. Đối với sơ đồ sau, chúng tôi hỏi liệu có đủ để kiểm soát Y khi xác định tác động nhân quả của X đến Z không .YYXZ.

Is it sufficient to control for $Y$ to find the causal impact of $X$ on $Z$?

Điều đầu tiên cần lưu ý là, trong cả hai trường hợp, không phải là một hậu duệ của X . Vì vậy, nó vượt qua tiêu chí đó. Điều tiếp theo cần lưu ý là, trong cả hai trường hợp, có một số con đường backdoor từ Z đến X . Hai ở sơ đồ bên trái và ba ở bên phải.YX.ZX.

ZYXZWBAX. chặn đường dẫn đầu tiên vì đây là nút phát ra mũi tên trực tiếp trong đường dẫn. YYY B,B,YZYX

ZWBYX. khôngchặn đường dẫn này, bởi vì nó là một nút mũi tên phát ra trong đường dẫn. Nó cũng chặn đường dẫn Z Y XY ZYXZWBAX,B.

YAWXZB.XZB,BAWBAWXZ

Như tôi đã đề cập trước khi sử dụng tiêu chí cửa sau yêu cầu bạn phải biết mô hình nhân quả (tức là sơ đồ "chính xác" của các mũi tên giữa các biến). Nhưng theo tôi, Mô hình nguyên nhân cấu trúc cũng đưa ra cách tốt nhất và chính thức nhất để tìm kiếm một mô hình như vậy hoặc để biết khi nào việc tìm kiếm là vô ích. Nó cũng có tác dụng phụ tuyệt vời của các thuật ngữ kết xuất như "gây nhiễu", "hòa giải" và "giả mạo" (tất cả đều làm tôi bối rối) lỗi thời. Chỉ cần cho tôi xem hình ảnh và tôi sẽ cho bạn biết những vòng tròn nào nên được kiểm soát.


3
Đẹp. Tôi đang tranh luận có nên thêm Pearl's không Nhân quả vào phần tham khảo trong câu trả lời của mình không .... và bây giờ đã làm như vậy. :)
Alexis

0

Những điều sau đây có thể hoặc có thể không phù hợp với trường hợp của bạn: nếu X là điều trị, thì bạn có thể giải quyết vấn đề của mình bằng cách sử dụng kết hợp điểm số theo xu hướng trong đó bạn vẫn sẽ giữ biến Ykhi bạn thực hiện khớp. Nói cách khác, bạn cân bằng các hiệp phương sai ( Ylà một trong những hiệp phương thức như vậy) dự đoán sẽ nhận được điều trị X.
Lưu ý làm thế nào không có tham chiếu đến biến kết quả Zở trên. Bạn cũng có thể kiểm tra mức độ quan sát của mình cân bằng (bằng cách tạo bảng cân đối trước và sau), điều này có thể cung cấp cho bạn thông tin chi tiết về mức độ Xđược xác định bởi Y.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.