Đây là một cách tiếp cận chung để hiểu Nghịch lý của Simpson về đại số cho dữ liệu đếm.
Giả sử rằng chúng ta có dữ liệu sinh tồn cho một lần phơi sáng và chúng ta tạo một bảng dự phòng 2x2. Để giữ cho mọi thứ đơn giản, chúng ta sẽ có cùng một số lượng trong mỗi ô. Chúng ta có thể thư giãn điều này, nhưng nó sẽ làm cho đại số khá lộn xộn.
ExposedUnexposedDiedXXSurvivedXXDeath Rate0.50.5
Trong trường hợp này, Tỷ lệ tử vong là như nhau trong cả hai nhóm Tiếp xúc và Không phơi nhiễm.
Bây giờ, nếu chúng ta chia dữ liệu, hãy nói thành một nhóm cho nữ và một nhóm khác cho nam, chúng ta có được 2 bảng, với các số sau:
Nam giới
ExposedUnexposedDiedXaXcSurvivedXbXdDeath Rateaa+bcc+d
và đối với nữ:
ExposedUnexposedDiedX(a−1)X(c−1)SurvivedX(b−1)X(d−1)Death Ratea−1a+b−2c−1c+d−2
trong đó a,b,c,d∈[0,1] là tỷ lệ của mỗi ô trong bảng dữ liệu tổng hợp là nam.
Nghịch lý của Simpson sẽ xảy ra khi tỷ lệ tử vong ở nam giới bị phơi nhiễm lớn hơn tỷ lệ tử vong ở nam giới không phơi nhiễm VÀ tỷ lệ tử vong ở nữ giới bị phơi nhiễm lớn hơn tỷ lệ tử vong ở nữ giới không phơi nhiễm. Ngoài ra, nó cũng sẽ xảy ra khi tỷ lệ tử vong ở nam giới bị phơi nhiễm thấp hơn tỷ lệ tử vong ở nam giới không phơi nhiễm VÀ tỷ lệ tử vong ở nữ giới bị phơi nhiễm thấp hơn tỷ lệ tử vong ở nữ giới không phơi nhiễm. Đó là khi
(aa+b<cc+d) and (a−1a+b−2<c−1c+d−2)
Or
(aa+b>cc+d) and (a−1a+b−2>c−1c+d−2)
Để làm ví dụ cụ thể, hãy để X=100 và a=0.5,b=0.8,c=0.9 . Rồi chúng ta sẽ có nghịch lý của Simpson khi:
(0.50.8+0.9<0.90.9+d) and (0.5−10.5+0.8−2<0.9−10.9+d−2)
(−9<d<1.44) and (0.96<d<1.1)
Từ đó chúng tôi kết luận rằng d phải nằm trong (0.96,1]
Tập bất đẳng thức thứ 2 mang lại:
(0.50.8+0.9>0.90.9+d) and (0.5−10.5+0.8−2>0.9−10.9+d−2)
(d<−0.9 or d>1.44) and (0.96<d or d>1.44)
which has no solution for d∈[0,1]
So for the three values that we chose for a,b, and c, to invoke Simpson's paradox, d must be greater than 0.96. In the case where the value was 0.99 then we would obtain a Death Rate for Males of
0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group
and for Females:
(0.5−1)/(0.5+0.8−2)=71% in the exposed group
(0.9−1)/(0.9+0.99−2)=91% in the unexposed group
So, males have a higher death rate in the unexposed group than in the exposed group, and females also have a higher death rate in the unexposed group than the exposed group, yet the death rates in the aggregated data are the same for exposed and unexposed.