Sau đây là một câu hỏi về nhiều hình ảnh được cung cấp dưới dạng "bằng chứng bằng hình ảnh" về sự tồn tại của nghịch lý Simpson và có thể là một câu hỏi về thuật ngữ.
Nghịch lý của Simpson là một hiện tượng khá đơn giản để mô tả và đưa ra các ví dụ bằng số (lý do tại sao điều này có thể xảy ra là sâu sắc và thú vị). Nghịch lý là tồn tại các bảng dự phòng 2x2x2 (Agresti, Phân tích dữ liệu phân loại) trong đó liên kết cận biên có một hướng khác nhau từ mỗi liên kết có điều kiện.
Đó là, so sánh các tỷ lệ trong hai quần thể có thể đi theo một hướng nhưng so sánh trong dân số kết hợp lại đi theo hướng khác. Trong các ký hiệu:
Tồn tại sao cho a + b
nhưng và
Điều này được thể hiện chính xác trong hình dung sau (từ Wikipedia ):
Một phân số chỉ đơn giản là độ dốc của các vectơ tương ứng và dễ dàng nhận thấy trong ví dụ rằng các vectơ B ngắn hơn có độ dốc lớn hơn các vectơ L tương ứng, nhưng vectơ B kết hợp có độ dốc nhỏ hơn vectơ L kết hợp.
Có một hình dung rất phổ biến ở nhiều dạng, một dạng cụ thể ở phía trước của tài liệu tham khảo wikipedia về Simpson:
Đây là một ví dụ tuyệt vời về sự gây nhiễu, làm thế nào một biến ẩn (phân tách hai quần thể phụ) có thể hiển thị một mẫu khác nhau.
Tuy nhiên, về mặt toán học, một hình ảnh như vậy không có cách nào tương ứng với việc hiển thị các bảng dự phòng là nền tảng của hiện tượng được gọi là nghịch lý của Simpson . Đầu tiên, các đường hồi quy nằm trên dữ liệu tập hợp điểm có giá trị thực, không tính dữ liệu từ bảng dự phòng.
Ngoài ra, người ta có thể tạo các tập dữ liệu với mối quan hệ tùy ý của độ dốc trong các đường hồi quy, nhưng trong các bảng dự phòng, có một hạn chế về mức độ khác nhau của độ dốc. Đó là, đường hồi quy của một quần thể có thể trực giao với tất cả các hồi quy của các quần thể đã cho. Nhưng trong Nghịch lý của Simpson, các tỷ lệ của các nhóm dân cư, mặc dù không phải là độ dốc hồi quy, không thể đi quá xa khỏi quần thể hỗn hợp, ngay cả khi theo hướng khác (một lần nữa, hãy xem hình ảnh so sánh tỷ lệ từ Wikipedia).
Đối với tôi, điều đó đủ để bị bất ngờ mỗi khi tôi thấy hình ảnh sau đó là một hình ảnh về nghịch lý của Simpson. Nhưng vì tôi thấy các ví dụ (cái mà tôi gọi là sai) ở khắp mọi nơi, tôi tò mò muốn biết:
- Tôi có thiếu một phép chuyển đổi tinh tế từ các ví dụ ban đầu của Simpson / Yule về các bảng dự phòng thành các giá trị thực để chứng minh trực quan hóa đường hồi quy không?
- Chắc chắn Simpson là một trường hợp cụ thể của lỗi gây nhiễu. Có phải thuật ngữ 'Nghịch lý của Simpson' bây giờ đã bị đánh đồng với lỗi khó hiểu, do đó, bất kể toán học, bất kỳ thay đổi nào về hướng thông qua một biến ẩn đều có thể được gọi là Nghịch lý của Simpson?
Phụ lục: Dưới đây là ví dụ về khái quát hóa cho bảng 2xmxn (hoặc 2 by m theo liên tục):
Nếu được hợp nhất theo kiểu bắn, có vẻ như người chơi thực hiện nhiều cú đánh hơn khi các hậu vệ ở gần hơn. Được nhóm theo loại cú sút (khoảng cách từ rổ thực sự), tình huống được mong đợi trực quan hơn xảy ra, rằng càng nhiều cú sút được thực hiện càng xa các hậu vệ.
Hình ảnh này là những gì tôi cho là khái quát của Simpson về một tình huống liên tục hơn (khoảng cách của các hậu vệ). Nhưng tôi vẫn chưa thấy ví dụ về đường hồi quy là một ví dụ về Simpson.