Đây có phải là Nghịch lý của Simpson trên bộ dữ liệu Titanic không?


8

Với bộ dữ liệu "Sự sống còn của hành khách trên tàu Titanic" nổi tiếng, tôi có một hành vi kỳ lạ bằng cách vẽ giá vé so với tuổi (xem bên dưới). Không có ràng buộc về P class, mối tương quan là tích cực. Ngược lại đối với tất cả các Lớp, các mối tương quan dường như là âm.

Tôi cho rằng đó là một dạng của "Nghịch lý Simpson". Nhưng tôi không chắc chắn. Làm thế nào hành vi này có thể giải thích tốt nhất cho trường hợp đặc biệt này?

# df is a pandas dataframe with the titanic data set
# see https://www.kaggle.com/c/titanic

import seaborn as sns
sns.jointplot("Age", "Fare", df, kind='reg')

Giá vé so với tuổi cho tất cả các hạng hành khách

sns.lmplot("Age", "Fare", df, col="Pclass")

nhập mô tả hình ảnh ở đây


4
Có vẻ như tôi phù hợp với tuyến tính là rất kém mà hướng gần như không liên quan.
Minnow

Câu trả lời:


9

Mặc dù nghịch lý của Simpson (hay đảo ngược của Simpson) thường được đề cập trong các bảng dự phòng 3 chiều hơn là tương quan giữa các biến liên tục, nhưng đó là hiện tượng tương tự.

Ở đây, lời giải thích bằng những từ đơn giản có vẻ rõ ràng: Mặc dù bên trong mỗi lớp có xu hướng giảm giá vé theo tuổi, nhưng những người ở tầng lớp thấp hơn có xu hướng trẻ hơn. Đó là, những người trẻ tuổi có xu hướng đi du lịch trong các lớp thấp hơn và do đó những người trẻ tuổi có xu hướng trả tiền vé thấp hơn.

Về thực tế là mọi người trẻ hơn ở tầng lớp thấp hơn, bạn có thể thấy trong cốt truyện có rất nhiều trẻ em (tuổi <18) ở lớp 3, ít hơn trong số chúng ở lớp 2 (rõ ràng là ít người trong 0-20 hơn 20-40), và rất ít trẻ em trong lớp 1. So sánh các băng tần 40-60 và 60-80 với băng tần 20-40 cũng cho thấy mọi người có xu hướng trẻ hơn ở các tầng lớp thấp hơn.

Tóm lại: Có, đó là một sự xuất hiện của nghịch lý Simpson. Những người trẻ tuổi có xu hướng đi du lịch ở các tầng lớp thấp hơn và do đó những người trẻ tuổi có xu hướng trả tiền vé thấp hơn, ngay cả khi họ có xu hướng trả nhiều hơn một chút so với những người lớn tuổi trong cùng một lớp.

Và chỉ là một nhận xét phụ: đây không phải là sự xuất hiện duy nhất của nghịch lý Simpson trong bộ dữ liệu Titanic. Trong https://select-statistic.co.uk/blog/hidden-data-and-surviving-a-sinking-ship-simpsons-paradox/ hoặc https://www2.stat.duke.edu/cifts/Fall12/ sta611 / SimpsonsParadox.pdf một cái khác được chú ý.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.