Liệu Nghịch lý của Simpson có bao gồm tất cả các trường hợp đảo ngược từ một biến ẩn không?


10

Sau đây là một câu hỏi về nhiều hình ảnh được cung cấp dưới dạng "bằng chứng bằng hình ảnh" về sự tồn tại của nghịch lý Simpson và có thể là một câu hỏi về thuật ngữ.

Nghịch lý của Simpson là một hiện tượng khá đơn giản để mô tả và đưa ra các ví dụ bằng số (lý do tại sao điều này có thể xảy ra là sâu sắc và thú vị). Nghịch lý là tồn tại các bảng dự phòng 2x2x2 (Agresti, Phân tích dữ liệu phân loại) trong đó liên kết cận biên có một hướng khác nhau từ mỗi liên kết có điều kiện.

Đó là, so sánh các tỷ lệ trong hai quần thể có thể đi theo một hướng nhưng so sánh trong dân số kết hợp lại đi theo hướng khác. Trong các ký hiệu:

Tồn tại sao cho a + ba,b,c,d,e,f,g,h

a+bc+d>e+fg+h

nhưng và

ac<eg

bd<fh

Điều này được thể hiện chính xác trong hình dung sau (từ Wikipedia ):

nghịch lý của simpson trong các vectơ

Một phân số chỉ đơn giản là độ dốc của các vectơ tương ứng và dễ dàng nhận thấy trong ví dụ rằng các vectơ B ngắn hơn có độ dốc lớn hơn các vectơ L tương ứng, nhưng vectơ B kết hợp có độ dốc nhỏ hơn vectơ L kết hợp.

Có một hình dung rất phổ biến ở nhiều dạng, một dạng cụ thể ở phía trước của tài liệu tham khảo wikipedia về Simpson:

độ dốc trái trong quần thể phụ

Đây là một ví dụ tuyệt vời về sự gây nhiễu, làm thế nào một biến ẩn (phân tách hai quần thể phụ) có thể hiển thị một mẫu khác nhau.

Tuy nhiên, về mặt toán học, một hình ảnh như vậy không có cách nào tương ứng với việc hiển thị các bảng dự phòng là nền tảng của hiện tượng được gọi là nghịch lý của Simpson . Đầu tiên, các đường hồi quy nằm trên dữ liệu tập hợp điểm có giá trị thực, không tính dữ liệu từ bảng dự phòng.

Ngoài ra, người ta có thể tạo các tập dữ liệu với mối quan hệ tùy ý của độ dốc trong các đường hồi quy, nhưng trong các bảng dự phòng, có một hạn chế về mức độ khác nhau của độ dốc. Đó là, đường hồi quy của một quần thể có thể trực giao với tất cả các hồi quy của các quần thể đã cho. Nhưng trong Nghịch lý của Simpson, các tỷ lệ của các nhóm dân cư, mặc dù không phải là độ dốc hồi quy, không thể đi quá xa khỏi quần thể hỗn hợp, ngay cả khi theo hướng khác (một lần nữa, hãy xem hình ảnh so sánh tỷ lệ từ Wikipedia).

Đối với tôi, điều đó đủ để bị bất ngờ mỗi khi tôi thấy hình ảnh sau đó là một hình ảnh về nghịch lý của Simpson. Nhưng vì tôi thấy các ví dụ (cái mà tôi gọi là sai) ở khắp mọi nơi, tôi tò mò muốn biết:

  • Tôi có thiếu một phép chuyển đổi tinh tế từ các ví dụ ban đầu của Simpson / Yule về các bảng dự phòng thành các giá trị thực để chứng minh trực quan hóa đường hồi quy không?
  • Chắc chắn Simpson là một trường hợp cụ thể của lỗi gây nhiễu. Có phải thuật ngữ 'Nghịch lý của Simpson' bây giờ đã bị đánh đồng với lỗi khó hiểu, do đó, bất kể toán học, bất kỳ thay đổi nào về hướng thông qua một biến ẩn đều có thể được gọi là Nghịch lý của Simpson?

Phụ lục: Dưới đây là ví dụ về khái quát hóa cho bảng 2xmxn (hoặc 2 by m theo liên tục): phần trăm giỏ được thực hiện liên quan đến khoảng cách, biến ẩn là loại ảnh

Nếu được hợp nhất theo kiểu bắn, có vẻ như người chơi thực hiện nhiều cú đánh hơn khi các hậu vệ ở gần hơn. Được nhóm theo loại cú sút (khoảng cách từ rổ thực sự), tình huống được mong đợi trực quan hơn xảy ra, rằng càng nhiều cú sút được thực hiện càng xa các hậu vệ.

Hình ảnh này là những gì tôi cho là khái quát của Simpson về một tình huống liên tục hơn (khoảng cách của các hậu vệ). Nhưng tôi vẫn chưa thấy ví dụ về đường hồi quy là một ví dụ về Simpson.


5
Nghịch lý của Simpson không chỉ áp dụng cho dữ liệu mục tiêu phân loại. Dữ liệu mục tiêu liên tục với một yếu tố phân loại ảnh hưởng đến nó, như trong biểu đồ cuối cùng của bạn, có thể phải chịu nghịch lý. Điều quan trọng là "yếu tố phân loại", không phải là biến số quan tâm có phải là phân loại hay không, hoặc bất kỳ hoặc tất cả các yếu tố khác ảnh hưởng đến biến quan tâm là phân loại.
jbowman

@jbowman OK, tôi có thể thấy rằng SP có thể khái quát hóa ngoài dữ liệu phân loại thành liên tục (Tôi chưa thấy sự khái quát hóa đó; SP dường như luôn được trình bày với các bảng dự phòng), nhưng tôi không thấy biểu đồ thứ hai tương ứng như thế nào. Ý tôi là tôi thấy ẩn dụ rõ ràng nhưng mơ hồ "một biến ẩn có thể thay đổi hướng", nhưng tôi chỉ không thấy cách khái quát hóa hoạt động toán học / chính xác.
Mitch

1
Bạn có một yếu tố phân loại ẩn khiến dữ liệu "thực" đi theo hai đường màu, nhưng không có kiến ​​thức về nó, dữ liệu dường như đi theo đường chấm chấm. Xem xét tai nạn lái xe theo độ tuổi như các biến mục tiêu và trục x của bạn - không phân loại. Họ xuất hiện để đi xuống với tuổi, phải không? Bây giờ thêm "yếu tố ẩn" của "lái xe trong khi say rượu". Đường màu xanh sẽ là "lái xe trong khi say", màu đỏ "lái xe trong khi không say". Với yếu tố tiềm ẩn đó, tương quan với tuổi trẻ, tai nạn đi lên theo tuổi tác! (Không phải là ví dụ thực tế nhất, tôi phải thừa nhận, nhưng đó là ý tưởng đáng kể ...)
jbowman

@jbowman Điều đó nghe giống như một lời giải thích về lỗi gây nhiễu hơn là SP. Có thể bạn đang nói rằng SP và gây nhiễu là như nhau. Nhưng âm thanh đó theo hướng của một câu trả lời; có lẽ bạn có thể chính thức hóa nó thêm một chút và làm cho kết nối với SP rõ ràng hơn (về mặt toán học để biết cách các đường hồi quy bằng cách nào đó giống như so sánh tỷ lệ trong trường hợp bảng dự phòng).
Mitch

1
Tôi đồng ý phiên bản dự phòng khác nhau theo một vài cách so với ví dụ hồi quy trong câu hỏi của bạn. (1) Biến gây nhiễu không phải là biến số mô tả một mẫu riêng lẻ, đó là một tỷ lệ khác nhau giữa nhóm điều trị và nhóm đối chứng. Trong ví dụ sỏi thận , tỷ lệ bệnh nhân sỏi lớn là khác nhau giữa hai nhóm và điều đó gây ra nghịch lý. (2) Trong ví dụ về thận, việc điều trị không tương quan với sự thay đổi của biến gây nhiễu, đó là một hiệu ứng riêng biệt. pxp
Paul

Câu trả lời:


8

Nghịch lý ở đây là tồn tại các bảng dự phòng 2x2x2 (Agresti, Phân tích dữ liệu phân loại) trong đó liên kết cận biên có một hướng khác với mỗi hiệp hội có điều kiện [...] Tôi có thiếu một chuyển đổi tinh tế từ các ví dụ ban đầu của Simpson / Yule giá trị thực mà biện minh cho trực quan hóa hồi quy?

Vấn đề chính là bạn đang đánh đồng một cách đơn giản để thể hiện nghịch lý như chính nghịch lý. Ví dụ đơn giản của bảng dự phòng không phải là nghịch lý. Nghịch lý của Simpson là về trực giác nhân quả mâu thuẫn khi so sánh các hiệp hội cận biên và điều kiện, thường là do sự đảo ngược dấu hiệu (hoặc sự suy giảm cực đoan như độc lập, như trong ví dụ ban đầu do chính Simpson đưa ra , trong đó không có sự đảo ngược dấu hiệu). Nghịch lý nảy sinh khi bạn diễn giải cả hai ước tính nguyên nhân, điều này có thể dẫn đến những kết luận khác nhau --- việc điều trị có giúp ích hay làm tổn thương bệnh nhân không? Và ước tính nào bạn nên sử dụng?

Cho dù mô hình nghịch lý xuất hiện trên bảng dự phòng hay trong hồi quy, điều đó không thành vấn đề. Tất cả các biến có thể liên tục và nghịch lý vẫn có thể xảy ra --- chẳng hạn, bạn có thể gặp trường hợp yet .E(Y|X,C=c)E(Y|X)X>0E(Y|X,C=c)X<0,c

Chắc chắn Simpson là một trường hợp cụ thể của lỗi gây nhiễu.

Điều này là không chính xác! Nghịch lý của Simpson không phải là một trường hợp cụ thể của lỗi gây nhiễu - nếu chỉ có vậy, thì sẽ không có nghịch lý nào cả. Rốt cuộc, nếu bạn chắc chắn rằng một số mối quan hệ bị xáo trộn, bạn sẽ không ngạc nhiên khi thấy sự đảo ngược hoặc suy giảm dấu hiệu trong các bảng dự phòng hoặc hệ số hồi quy --- có thể bạn thậm chí sẽ mong đợi điều đó.

Vì vậy, trong khi nghịch lý của Simpson đề cập đến một sự đảo ngược (hoặc suy giảm cực độ) của "hiệu ứng" khi so sánh các hiệp hội cận biên và điều kiện, thì điều này có thể không phải do gây nhiễu và một tiên nghiệm mà bạn không thể biết liệu biên hay bảng điều kiện là "chính xác" "Một để tham khảo để trả lời câu hỏi nhân quả của bạn. Để làm được điều đó, bạn cần biết thêm về cấu trúc nguyên nhân của vấn đề.

Hãy xem xét các ví dụ được đưa ra trong Pearl : nhập mô tả hình ảnh ở đây

Hãy tưởng tượng rằng bạn đang quan tâm trong tổng số hiệu ứng nhân quả của trên . Sự đảo ngược của các hiệp hội có thể xảy ra trong tất cả các biểu đồ này. Trong (a) và (d), chúng tôi đã làm tiêu tan, và bạn sẽ điều chỉnh cho . Trong (b) không có nhiễu, là một người hòa giải, và bạn không nên điều chỉnh cho . Trong (c) là một máy gia tốc và không có nhiễu, vì vậy bạn không nên điều chỉnh cho một trong hai. Đó là, trong hai trong số các ví dụ này (b và c) bạn có thể quan sát nghịch lý của Simpson, tuy nhiên, không có gì đáng lo ngại và câu trả lời chính xác cho truy vấn nguyên nhân của bạn sẽ được đưa ra bởi ước tính chưa được điều chỉnh.XYZZZZZ

Lời giải thích của Pearl về lý do tại sao điều này được coi là "nghịch lý" và tại sao nó vẫn đánh đố mọi người là rất hợp lý. Lấy trường hợp đơn giản được mô tả trong (a) chẳng hạn: hiệu ứng nhân quả không thể đơn giản đảo ngược như thế. Do đó, nếu chúng ta nhầm tưởng rằng cả hai ước tính đều là nguyên nhân (cận biên và có điều kiện), chúng ta sẽ ngạc nhiên khi thấy một điều như vậy xảy ra --- và con người dường như có dây để thấy mối quan hệ nhân quả trong hầu hết các hiệp hội.

Vì vậy, trở lại câu hỏi chính (tiêu đề) của bạn:

Liệu Nghịch lý của Simpson có bao gồm tất cả các trường hợp đảo ngược từ một biến ẩn không?

Theo một nghĩa nào đó, đây là định nghĩa hiện tại về nghịch lý của Simpson. Nhưng rõ ràng là biến điều hòa không bị ẩn, nó phải được quan sát nếu không bạn sẽ không thấy nghịch lý xảy ra. Hầu hết các phần khó hiểu của nghịch lý bắt nguồn từ những cân nhắc nguyên nhân và biến "ẩn" này không nhất thiết là một yếu tố gây nhiễu.

Bảng dự phòng và hồi quy

Như đã thảo luận trong các ý kiến, nhận dạng đại số của việc chạy hồi quy với dữ liệu nhị phân và tính toán sự khác biệt về tỷ lệ từ các bảng dự phòng có thể giúp hiểu tại sao nghịch lý xuất hiện trong hồi quy có bản chất tương tự. Hãy tưởng tượng kết quả của bạn là , điều trị và nhóm của bạn , tất cả các biến nhị phân.yxz

Khi đó, sự khác biệt tổng thể về tỷ lệ đơn giản là hệ số hồi quy của trên . Sử dụng ký hiệu của bạn:yx

a+bc+de+fg+h=cov(y,x)var(x)

Và điều tương tự cũng xảy ra với từng nhóm con của nếu bạn chạy hồi quy riêng, một cho :zz=1

aceg=cov(y,x|z=1)var(x|z=1)

Và một số khác cho :z=0

bdfh=cov(y,x|z=0)var(x|z=0)

Do đó, theo phương pháp hồi quy, nghịch lý tương ứng với việc ước tính hệ số đầu tiên theo một hướng và hai hệ số của các nhóm con theo một hướng khác với hệ số cho toàn bộ dân số .(cov(y,x)var(x))(cov(y,x)(cov(y,x|z)var(x|z))(cov(y,x)var(x))


1
Nghe có vẻ như, theo quan điểm của bạn, nghịch lý của Simpson không chỉ đề cập đến khả năng có sự khác biệt trong các hiệp hội cận biên và có điều kiện, mà còn cả sự nhầm lẫn về việc ai sẽ "đúng" khi sử dụng dữ liệu? Và Pearl cho thấy cấu trúc nhân quả là những gì chúng ta nên sử dụng để quyết định điều này?
Paul

2
"Nghịch lý của Simpson là về trực giác mâu thuẫn khi so sánh các hiệp hội cận biên và có điều kiện." Tôi không đồng ý ở đây, nghịch lý của Simpson đặc biệt đề cập đến một dấu hiệu lật khi so sánh kết quả thô với kết quả phân tầng.
AdamO

2
@AdamO trong khi hầu hết mọi người sử dụng trường hợp cực đoan về đảo ngược dấu hiệu là định nghĩa "nghiêm ngặt" về nghịch lý của Simpson, ví dụ ban đầu của Simpson thực sự không có đảo ngược dấu hiệu.
Carlos Cinelli

1
@Paul điều đó hoàn toàn chính xác.
Carlos Cinelli

2
@AdamO Tôi nghĩ rằng lời giải thích của Pearl về lý do tại sao điều này được coi là "nghịch lý" và tại sao nó vẫn đánh đố mọi người là có lý. Trong trường hợp đơn giản của (a) chẳng hạn, các hiệu ứng nhân quả không thể đơn giản đảo ngược như thế. Do đó, nếu chúng ta đang suy nghĩ nhân quả cho cả hai trường hợp, chúng ta sẽ ngạc nhiên khi thấy một điều như vậy xảy ra --- và con người dường như có dây để thấy mối quan hệ nhân quả trong hầu hết các hiệp hội.
Carlos Cinelli

2

Tôi có thiếu một phép chuyển đổi tinh tế từ các ví dụ ban đầu của Simpson / Yule về các bảng dự phòng thành các giá trị thực để chứng minh trực quan hóa đường hồi quy không?

Đúng. Một đại diện tương tự của các phân tích phân loại là có thể bằng cách hình dung tỷ lệ phản hồi log trên trục Y. Nghịch lý của Simpson xuất hiện theo cách tương tự với một dòng "thô" chạy ngược lại các xu hướng cụ thể của tầng được tính theo khoảng cách theo tỷ lệ cược log của tham chiếu tầng của kết quả.

Dưới đây là một ví dụ với dữ liệu tuyển sinh Berkeley

nhập mô tả hình ảnh ở đây

Ở đây giới tính là mã nam / nữ, trên trục X là tỷ lệ đăng nhập nhập học thô đối với nam so với nữ, đường màu đen nét đứt thể hiện sự ưa thích giới tính: độ dốc dương cho thấy sự thiên vị đối với tuyển sinh nam. Các màu sắc đại diện cho nhập học cho các bộ phận cụ thể. Trong tất cả các trường hợp ngoại trừ hai trường hợp, độ dốc của đường ưu tiên giới tính theo khoa cụ thể là âm. Nếu các kết quả này được tính trung bình cùng nhau trong một mô hình logistic không tính tương tác, thì hiệu quả tổng thể là sự đảo ngược có lợi cho tuyển sinh nữ. Họ áp dụng cho các bộ phận khó khăn thường xuyên hơn so với nam giới.

Chắc chắn Simpson là một trường hợp cụ thể của lỗi gây nhiễu. Có phải thuật ngữ 'Nghịch lý của Simpson' đã trở thành tương đương với lỗi khó hiểu, do đó, bất kể toán học, bất kỳ thay đổi nào về hướng thông qua một biến ẩn đều có thể được gọi là Nghịch lý của Simpson?

Ngắn gọn, không. Nghịch lý của Simpson chỉ đơn thuần là "cái gì" trong khi gây bối rối là "tại sao". Các cuộc thảo luận chi phối đã tập trung vào nơi họ đồng ý. Sự gây nhiễu có thể có ảnh hưởng tối thiểu hoặc không đáng kể đến các ước tính và nghịch lý của Simpson, trong khi kịch tính, có thể được gây ra bởi những người không gây nhiễu. Lưu ý, các thuật ngữ "ẩn" hoặc "ẩn" biến không chính xác. Từ góc độ nhà dịch tễ học, kiểm soát cẩn thận và thiết kế nghiên cứu sẽ cho phép đo lường hoặc kiểm soát những người đóng góp có thể đến sai lệch gây nhiễu. Họ không cần phải "ẩn" để trở thành một vấn đề.

Có những thời điểm mà các ước tính điểm có thể thay đổi mạnh mẽ, đến điểm đảo ngược, điều đó không dẫn đến sự nhầm lẫn. Colliders và hòa giải cũng thay đổi hiệu ứng, có thể đảo ngược chúng. Lý do nguyên nhân cảnh báo rằng để nghiên cứu các hiệu ứng, tác dụng chính nên được nghiên cứu trong sự cô lập thay vì điều chỉnh cho các hiệu ứng này vì ước tính phân tầng là sai. (Đó là giống như suy luận, không chính xác, rằng việc gặp bác sĩ làm cho bạn bị bệnh, hoặc súng giết người do đó mọi người không giết người).


Vì vậy, bạn sẽ nói rằng ví dụ ban đầu của Simpson không phải là một trường hợp "nghịch lý của Simpson"?
Carlos Cinelli

@CarlosCinelli bạn muốn nói đến ví dụ nào? Tôi không có quyền truy cập vào bài báo năm 1951 của Simpson, nhưng do nó được xuất bản trên JRSS và không có tài liệu tham khảo nào về một ví dụ được áp dụng trong bản tóm tắt, nó có vẻ như là một công trình lý thuyết thuần túy.
AdamO

Đó là ví dụ bằng số ở đoạn 9 và 10, trong đó anh ta đưa ra các bảng dự phòng giống nhau với hai câu chuyện khác nhau sẽ dẫn đến hai cách hiểu nhân quả khác nhau. Trong ví dụ đó không có dấu hiệu đảo ngược, chỉ là sự độc lập cận biên.
Carlos Cinelli

2
Để xem lý do tại sao sự đảo ngược dấu hiệu là không quan trọng ở đây, chỉ cần tưởng tượng một tình huống điều trị cho thấy một mối liên hệ cực kỳ mạnh mẽ cho cả nam và nữ, nhưng chỉ cho thấy một mối liên hệ nhỏ trong tổng thể dân số. Điều này vẫn sẽ là nghịch lý quá nhiều người, nếu giải thích nguyên nhân.
Carlos Cinelli

@CarlosCinelli Tôi sẽ nói đó là một ví dụ về nhiễu nhưng không nghịch lý Simpson của mỗi gia nhập , nhưng tôi sẽ không nên tồi tệ hơn điểm, tôi nghĩ rằng bạn đã thực hiện một cuộc tranh luận tốt và có lẽ tôi đang cầm một số giả định không chính xác về những gì đã và đang không hiện tượng khó nắm bắt của Nghịch lý Simpson.
AdamO
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.