Bạn có thể giải thích nghịch lý của Simpson bằng các phương trình, thay vì các bảng dự phòng không?


14

Tôi có lẽ không hiểu rõ về nghịch lý của Simpson . Một cách không chính thức tôi biết rằng trung bình của phản ứng Y1, được nhóm theo tất cả các mức của yếu tố A có thể, có thể cao hơn mức trung bình của phản ứng Y2 so với tất cả các cấp độ A, ngay cả khi trung bình của Y1 cho mỗi cấp độ A (mỗi nhóm) là luôn luôn nhỏ hơn trung bình tương ứng của Y2. Tôi đã đọc các ví dụ, nhưng tôi vẫn cảm thấy ngạc nhiên mỗi lần tôi nhìn thấy nó, có thể vì tôi không học tốt bằng các ví dụ cụ thể: Tôi gặp khó khăn khi khái quát chúng. Tôi học tốt nhất, và thà thấy, một lời giải thích trong các công thức. Bạn có thể vui lòng giải thích nghịch lý dựa trên các phương trình, thay vì đếm bảng?

Ngoài ra, tôi nghĩ lý do cho sự ngạc nhiên của tôi là tôi vô tình có thể đưa ra một số giả định về mức trung bình liên quan đến nghịch lý, nói chung có thể không đúng. Có lẽ tôi quên trọng lượng theo số lượng mẫu trong mỗi nhóm? Nhưng sau đó, tôi muốn xem một phương trình cho tôi thấy rằng ước tính của tổng trung bình là chính xác hơn nếu tôi cân trung bình mỗi nhóm theo số lượng mẫu trong mỗi nhóm, bởi vì (nếu điều này là đúng) thì không rõ ràng với tôi nói chung Chắc chắn tôi sẽ nghĩ rằng ước tính của E[Y1] có sai số tiêu chuẩn thấp hơn khi tôi có nhiều mẫu hơn, không phân biệt trọng số.


1
Tôi có một bài viết liên quan ở đây với các mô phỏng. Mô phỏng có thể hữu ích cho bạn để hiểu nghịch lý của simpson
Haitao Du

đây là một cỗ máy sản xuất những nghịch lý của Simpson theo yêu cầu!
kjetil b halvorsen

Câu trả lời:


11

Đây là một cách tiếp cận chung để hiểu Nghịch lý của Simpson về đại số cho dữ liệu đếm.

Giả sử rằng chúng ta có dữ liệu sinh tồn cho một lần phơi sáng và chúng ta tạo một bảng dự phòng 2x2. Để giữ cho mọi thứ đơn giản, chúng ta sẽ có cùng một số lượng trong mỗi ô. Chúng ta có thể thư giãn điều này, nhưng nó sẽ làm cho đại số khá lộn xộn.

DiedSurvivedDeath RateExposedXX0.5UnexposedXX0.5

Trong trường hợp này, Tỷ lệ tử vong là như nhau trong cả hai nhóm Tiếp xúc và Không phơi nhiễm.

Bây giờ, nếu chúng ta chia dữ liệu, hãy nói thành một nhóm cho nữ và một nhóm khác cho nam, chúng ta có được 2 bảng, với các số sau:

Nam giới

DiedSurvivedDeath RateExposedXaXbaa+bUnexposedXcXdcc+d

và đối với nữ:

DiedSurvivedDeath RateExposedX(a1)X(b1)a1a+b2UnexposedX(c1)X(d1)c1c+d2

trong đó a,b,c,d[0,1] là tỷ lệ của mỗi ô trong bảng dữ liệu tổng hợp là nam.

Nghịch lý của Simpson sẽ xảy ra khi tỷ lệ tử vong ở nam giới bị phơi nhiễm lớn hơn tỷ lệ tử vong ở nam giới không phơi nhiễm tỷ lệ tử vong ở nữ giới bị phơi nhiễm lớn hơn tỷ lệ tử vong ở nữ giới không phơi nhiễm. Ngoài ra, nó cũng sẽ xảy ra khi tỷ lệ tử vong ở nam giới bị phơi nhiễm thấp hơn tỷ lệ tử vong ở nam giới không phơi nhiễm tỷ lệ tử vong ở nữ giới bị phơi nhiễm thấp hơn tỷ lệ tử vong ở nữ giới không phơi nhiễm. Đó là khi

(aa+b<cc+d) and (a1a+b2<c1c+d2)

Or 

(aa+b>cc+d) and (a1a+b2>c1c+d2)

Để làm ví dụ cụ thể, hãy để X=100a=0.5,b=0.8,c=0.9 . Rồi chúng ta sẽ có nghịch lý của Simpson khi:

(0.50.8+0.9<0.90.9+d) and (0.510.5+0.82<0.910.9+d2)

(9<d<1.44) and (0.96<d<1.1)

Từ đó chúng tôi kết luận rằng d phải nằm trong (0.96,1]

Tập bất đẳng thức thứ 2 mang lại:

(0.50.8+0.9>0.90.9+d) and (0.510.5+0.82>0.910.9+d2)

(d<0.9 or d>1.44) and (0.96<d or d>1.44)

which has no solution for d[0,1]

So for the three values that we chose for a,b, and c, to invoke Simpson's paradox, d must be greater than 0.96. In the case where the value was 0.99 then we would obtain a Death Rate for Males of

0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group

and for Females:

(0.51)/(0.5+0.82)=71% in the exposed group
(0.91)/(0.9+0.992)=91% in the unexposed group

So, males have a higher death rate in the unexposed group than in the exposed group, and females also have a higher death rate in the unexposed group than the exposed group, yet the death rates in the aggregated data are the same for exposed and unexposed.


16

Suppose we have data on 2 variables, x and y, for 2 groups, A and B.

Data in group A are such that the fitted regression line is

y=11x

with mean values of 2 and 9 for x and y respectively.

Data in group B are such that the fitted regression line is

y=25x

with mean values of 11 and 14 for x and y respectively.

So the regression coefficient for x is 1 in both groups.

Further, let there be equal numbers of observations in each group, with both and y distributed symmetrically. We now wish to compute the overall regression line. To keep matters simple we will assume that the overall regression line passes through the means of each group, that is (2,9) for group A and (11,14) for group B. Then it is easy to see that the overall regression line slope must be (149)/(112)=0.55 which is the overall regression coefficient for x. Thus we see Simpson’s paradox in action – we have a negative association of x with y in each group individually, but a positive association overall when the data are aggregated. We can demonstrate this easily in R as follows:

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

enter image description here

The red points and regression line are group A, the blue points and regression line are group B and the black line is the overall regression line.


Hi, thanks for the answer, but this is yet another specific example of the Simpson's paradox. I specifically asked for something in the form of a theorem or a set of equations, a more abstract and general approach. Anyway, since there are no other answers, I'll study your example and if I feel that it helps me to generalize the concept, I'll accept the answer.
DeltaIV

3
@DeltaIV I have written a new answer using purely algebraic arguments.
Robert Long
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.