Làm thế nào để giải quyết nghịch lý của Simpson?


35

Nghịch lý của Simpson là một câu đố kinh điển được thảo luận trong các khóa học thống kê giới thiệu trên toàn thế giới. Tuy nhiên, khóa học của tôi chỉ đơn giản là lưu ý rằng một vấn đề đã tồn tại và không cung cấp giải pháp. Tôi muốn biết làm thế nào để giải quyết nghịch lý. Đó là, khi đối mặt với nghịch lý của Simpson, nơi hai lựa chọn khác nhau dường như cạnh tranh để trở thành lựa chọn tốt nhất tùy thuộc vào cách phân vùng dữ liệu, nên chọn lựa chọn nào?

Để giải quyết vấn đề cụ thể, chúng ta hãy xem xét ví dụ đầu tiên được đưa ra trong bài viết Wikipedia có liên quan . Nó dựa trên một nghiên cứu thực sự về một phương pháp điều trị sỏi thận.

nhập mô tả hình ảnh ở đây

Giả sử tôi là bác sĩ và xét nghiệm cho thấy bệnh nhân bị sỏi thận. Chỉ sử dụng thông tin được cung cấp trong bảng, tôi muốn xác định xem tôi nên áp dụng điều trị A hay điều trị B. Có vẻ như nếu tôi biết kích thước của viên đá, thì chúng ta nên ưu tiên điều trị A. Nhưng nếu chúng ta không, thì chúng ta không nên chúng ta nên thích điều trị B.

Nhưng hãy xem xét một cách hợp lý khác để đi đến một câu trả lời. Nếu viên đá lớn, chúng ta nên chọn A và nếu nó nhỏ, chúng ta nên chọn lại A. Vì vậy, ngay cả khi chúng ta không biết kích thước của viên đá, bằng phương pháp trường hợp, chúng ta thấy rằng chúng ta nên chọn A. Điều này mâu thuẫn với lý luận trước đây của chúng tôi.

Vì vậy: Một bệnh nhân bước vào văn phòng của tôi. Một xét nghiệm cho thấy họ bị sỏi thận nhưng không cho tôi biết thông tin về kích thước của chúng. Tôi nên giới thiệu phương pháp điều trị nào? Có bất kỳ giải pháp được chấp nhận cho vấn đề này?

Wikipedia gợi ý về một giải pháp sử dụng "mạng Bayes nhân quả" và thử nghiệm "cửa sau", nhưng tôi không biết đây là những gì.


2
Các Paradox Simpson cơ bản liên kết nêu trên là một ví dụ về dữ liệu quan sát. Chúng tôi không thể quyết định rõ ràng giữa các bệnh viện vì bệnh nhân có thể không được chỉ định ngẫu nhiên vào bệnh viện và câu hỏi được đặt ra không cho chúng tôi biết liệu, ví dụ, một bệnh viện có xu hướng mắc bệnh nhân có nguy cơ cao hơn hay không. Phân chia kết quả thành các hoạt động AE không giải quyết vấn đề đó.
Emil Friedman

@EmilFriedman Tôi đồng ý rằng chúng ta có thể quyết định rõ ràng giữa các bệnh viện. Nhưng chắc chắn dữ liệu hỗ trợ cái này hơn cái kia. (Không phải sự thật là dữ liệu đã không cho chúng ta biết gì về chất lượng của các bệnh viện.)
Khoai tây

Câu trả lời:


14

Trong câu hỏi của bạn, bạn nói rằng bạn không biết "mạng Bayes nhân quả" và "kiểm tra cửa sau" là gì.

Giả sử bạn có một mạng lưới Bayes nhân quả. Đó là, một đồ thị chu kỳ có hướng có các nút đại diện cho các mệnh đề và các cạnh có hướng đại diện cho các mối quan hệ nhân quả tiềm năng. Bạn có thể có nhiều mạng như vậy cho mỗi giả thuyết của bạn. Có ba cách để tạo ra một luận cứ thuyết phục về sức mạnh hay sự tồn tại của một cạnh .Một?B

Cách dễ nhất là can thiệp. Đây là những gì các câu trả lời khác đang gợi ý khi họ nói rằng "ngẫu nhiên thích hợp" sẽ khắc phục vấn đề. Bạn buộc ngẫu nhiên có giá trị khác nhau và bạn đo . Nếu bạn có thể làm điều đó, bạn đã hoàn thành, nhưng bạn không thể luôn làm điều đó. Trong ví dụ của bạn, có thể là không hợp lý khi cung cấp cho mọi người phương pháp điều trị không hiệu quả đối với các bệnh chết người, hoặc họ có thể có một số tiếng nói trong điều trị của họ, ví dụ, họ có thể chọn cách khắc nghiệt (điều trị B) ít hơn khi sỏi thận của họ nhỏ và ít đau hơn.MộtB

Cách thứ hai là phương pháp cửa trước. Bạn muốn thể hiện rằng hoạt động trên qua , tức là . Nếu bạn cho rằng là có khả năng gây ra bởi nhưng không có các nguyên nhân khác, và bạn có thể đo rằng là tương quan với , và là tương quan với , sau đó bạn có thể kết luận bằng chứng phải được chảy qua . Ví dụ ban đầu: đang hút thuốc, là ung thư,MộtBCMộtCBCMộtCMộtBCCMộtBClà sự tích lũy tar. Tar chỉ có thể đến từ việc hút thuốc, và nó có liên quan đến cả hút thuốc và ung thư. Do đó, hút thuốc gây ung thư thông qua tar (mặc dù có thể có những con đường nguyên nhân khác làm giảm tác dụng này).

Cách thứ ba là phương pháp cửa sau. Bạn muốn chứng tỏ rằng và không liên quan vì một "cửa sau", ví dụ như nguyên nhân phổ biến, ví dụ, . Vì bạn đã giả định một mô hình nhân quả, bạn chỉ cần để chặn tất cả các đường dẫn (bằng cách quan sát các biến và điều hòa trên chúng) bằng chứng cho thấy có thể chảy từ và xuống để . Có một chút khó khăn để chặn các đường dẫn này, nhưng Pearl đưa ra một thuật toán rõ ràng cho phép bạn biết những biến nào bạn phải quan sát để chặn các đường dẫn này.ABADBAB

gung nói đúng rằng với sự ngẫu nhiên tốt, các yếu tố gây nhiễu sẽ không thành vấn đề. Vì chúng tôi cho rằng việc can thiệp vào nguyên nhân giả định (điều trị) là không được phép, nên bất kỳ nguyên nhân phổ biến nào giữa nguyên nhân giả thuyết (điều trị) và ảnh hưởng (sống sót), như tuổi tác hoặc kích thước sỏi thận sẽ là một yếu tố gây nhiễu. Giải pháp là thực hiện các phép đo phù hợp để chặn tất cả các cửa sau. Để đọc thêm xem:

Ngọc trai, Giuđê. "Sơ đồ nhân quả cho nghiên cứu thực nghiệm." Biometrika 82.4 (1995): 669-688.


Để áp dụng điều này cho vấn đề của bạn, trước tiên chúng ta hãy vẽ biểu đồ nhân quả. (Điều trị-trước) kích thước sỏi thận và loại điều trị đều nguyên nhân của sự thành công . có thể là một nguyên nhân của nếu các bác sĩ khác đang chỉ định điều trị dựa trên kích thước sỏi thận. Rõ ràng không có mối quan hệ nhân quả khác giữa , , và . đến sau nên nó không thể là nguyên nhân của nó. Tương tự đưa ra sau khi và .XYZXYXYZYXZXY

Vì là một nguyên nhân phổ biến, nên cần đo. Tùy thuộc vào người thí nghiệm để xác định vũ trụ của các biến và mối quan hệ nhân quả tiềm năng . Đối với mọi thử nghiệm, người thử nghiệm đo "các biến số cửa sau" cần thiết và sau đó tính toán phân phối xác suất cận biên của thành công điều trị cho từng cấu hình của các biến. Đối với một bệnh nhân mới, bạn đo các biến và theo dõi điều trị được chỉ định bởi phân phối biên. Nếu bạn không thể đo lường mọi thứ hoặc bạn không có nhiều dữ liệu nhưng biết điều gì đó về kiến ​​trúc của các mối quan hệ, bạn có thể thực hiện "truyền bá niềm tin" (suy luận Bayes) trên mạng.X


2
Câu trả lời rất hay. Bạn có thể nói ngắn gọn về cách áp dụng khung này cho ví dụ tôi đưa ra trong câu hỏi không? Nó có đưa ra câu trả lời mong đợi (A) không?
Khoai tây

Cảm ơn! Bạn có biết về một giới thiệu ngắn, hay về "truyền bá niềm tin" không? Tôi quan tâm đến việc tìm hiểu thêm.
Khoai tây

@Potato: Tôi đã học nó từ cuốn sách "Lý luận xác suất trong các hệ thống thông minh" của anh ấy. Có rất nhiều hướng dẫn trực tuyến, nhưng thật khó để tìm thấy một hướng dẫn xây dựng trực giác hơn là chỉ trình bày thuật toán.
Neil G

22

Tôi có một câu trả lời trước đó thảo luận về nghịch lý của Simpson ở đây: Nghịch lý cơ bản của Simpson . Nó có thể giúp bạn đọc điều đó để hiểu rõ hơn về hiện tượng này.

Nói tóm lại, nghịch lý của Simpson xảy ra vì bối rối. Trong ví dụ của bạn, việc điều trị bị nhầm lẫn* với các loại sỏi thận mỗi bệnh nhân đã có. Chúng tôi biết từ bảng đầy đủ các kết quả được trình bày rằng điều trị A luôn tốt hơn. Vì vậy, bác sĩ nên chọn phương pháp điều trị A. Lý do duy nhất điều trị B có vẻ tốt hơn trong tổng hợp là nó được dùng thường xuyên hơn cho những bệnh nhân có tình trạng ít nghiêm trọng hơn, trong khi điều trị A được đưa ra cho những bệnh nhân mắc bệnh nặng hơn. Tuy nhiên, điều trị A thực hiện tốt hơn với cả hai điều kiện. Là một bác sĩ, bạn không quan tâm đến thực tế rằng trước đây, việc điều trị tồi tệ hơn được đưa ra cho những bệnh nhân mắc bệnh ít hơn, bạn chỉ quan tâm đến bệnh nhân trước bạn và nếu bạn muốn bệnh nhân đó cải thiện, bạn sẽ cung cấp họ với điều trị tốt nhất có sẵn.

* Lưu ý rằng điểm của các thí nghiệm đang chạy và các phương pháp điều trị ngẫu nhiên là tạo ra một tình huống trong đó các phương pháp điều trị không bị giới hạn. Nếu nghiên cứu được đề cập là một thử nghiệm, tôi sẽ nói rằng quá trình ngẫu nhiên hóa không tạo ra các nhóm công bằng, mặc dù nó có thể là một nghiên cứu quan sát - tôi không biết.


Bạn chọn cách tiếp cận chuẩn hóa cũng được đề xuất bởi câu trả lời khác. Tôi thấy điều này có vấn đề. Có thể hiển thị hai phân vùng của cùng một tập dữ liệu đưa ra kết luận khác nhau khi được chuẩn hóa. Xem liên kết của tôi và trích dẫn để trả lời câu trả lời khác.
Khoai tây

2
Tôi chưa đọc bài báo của Stanford. Tuy nhiên, tôi không tìm thấy lý do trong trích dẫn hấp dẫn. Cũng có thể là ở một số người, điều trị B tốt hơn điều trị A. Điều này không thành vấn đề. Nếu điều đó đúng với một số người, thì đó chỉ là do đặc điểm của dân số bị nhầm lẫn. Bạn phải đối mặt với một bệnh nhân (không phải dân số), và bệnh nhân đó có nhiều khả năng cải thiện khi điều trị Một vấn đề liên quan đến việc bệnh nhân đó có sỏi thận lớn hay nhỏ. Bạn nên chọn điều trị A.
gung - Phục hồi Monica

2
Là phân vùng trẻ / già bị nhầm lẫn? Nếu không, đây sẽ không phải là một vấn đề. Nếu vậy, chúng tôi sẽ sử dụng thông tin đầy đủ để đưa ra quyết định tốt nhất. Dựa trên những gì chúng ta biết hiện tại, 'điều trị B có vẻ tốt nhất trong tập hợp' là cá trích đỏ. Nó chỉ có vẻ là trường hợp vì gây nhiễu, nhưng nó là một ảo ảnh (thống kê).
gung - Tái lập Monica

2
Bạn sẽ có một bảng phức tạp hơn có tính đến cả kích thước & tuổi sỏi thận. Bạn có thể xem ví dụ về trường hợp thiên vị giới tính Berkeley trên trang Wikipedia.
gung - Tái lập Monica

1
Ghét việc kéo dài bình luận lâu như vậy nhưng ... tôi sẽ không nói rằng nghịch lý luôn luôn là do gây nhiễu. Đó là do mối quan hệ giữa các biến số mà một biến gây nhiễu sẽ có, nhưng tôi sẽ không gọi tất cả các biến dẫn đến một nghịch lý Simpson gây nhiễu (ví dụ: trọng lượng 30 năm tuổi và 90 năm x lượng khoai tây chiên tiêu thụ mỗi năm - bởi vì 90 tuổi bắt đầu nhẹ hơn nhiều với hiệu ứng chính của chip có thể là tiêu cực nếu không có sự tương tác. Tôi sẽ không gọi tuổi là một sự nhầm lẫn. (xem hình đầu tiên trên trang Wikipedia.)
John


4

Bạn có muốn giải pháp cho một ví dụ hay nghịch lý nói chung không? Không có cái nào cho cái sau bởi vì nghịch lý có thể phát sinh vì nhiều lý do và cần được đánh giá theo từng trường hợp.

Nghịch lý chủ yếu là vấn đề khi báo cáo dữ liệu tóm tắt và rất quan trọng trong việc đào tạo các cá nhân cách phân tích và báo cáo dữ liệu. Chúng tôi không muốn các nhà nghiên cứu báo cáo các số liệu thống kê tóm tắt che giấu hoặc làm xáo trộn các mẫu trong dữ liệu hoặc các nhà phân tích dữ liệu không nhận ra mẫu thực trong dữ liệu là gì. Không có giải pháp nào được đưa ra vì không có một giải pháp nào.

Trong trường hợp cụ thể này, bác sĩ với bảng rõ ràng sẽ luôn chọn A và bỏ qua dòng tóm tắt. Không có gì khác biệt nếu họ biết kích thước của đá hay không. Nếu ai đó phân tích dữ liệu chỉ báo cáo các dòng tóm tắt được trình bày cho A và B thì sẽ có vấn đề vì dữ liệu bác sĩ nhận được sẽ không phản ánh đúng thực tế. Trong trường hợp này, có lẽ họ cũng nên rời khỏi dòng cuối cùng vì nó chỉ đúng theo một cách giải thích về số liệu thống kê tóm tắt nên có (có hai cách có thể). Để người đọc giải thích các ô riêng lẻ thường sẽ tạo ra kết quả chính xác.

(Nhận xét đa dạng của bạn dường như cho thấy bạn quan tâm nhất về các vấn đề N không đồng đều và Simpson rộng hơn thế nên tôi miễn cưỡng tiếp tục vấn đề N bất bình đẳng hơn nữa. Có lẽ hãy hỏi một câu hỏi có mục tiêu hơn. Tôi ủng hộ một kết luận bình thường hóa. Tôi thì không. Tôi cho rằng bạn cần xem xét rằng thống kê tóm tắt được lựa chọn tương đối tùy tiện và sự lựa chọn của một số nhà phân tích đã đưa ra nghịch lý. Tôi cho rằng bạn nhìn vào các tế bào bạn có.)


Bạn tuyên bố chúng ta nên bỏ qua dòng tóm tắt. Tại sao điều này "rõ ràng"?
Khoai tây

Rõ ràng là vì điều trị A tốt hơn với những viên đá lớn hay nhỏ và B chỉ xuất hiện do N không đều nhau. Hơn nữa, dòng cuối cùng là một giải thích không phải là phúc âm. Có ít nhất hai cách để tính dòng đó. Bạn sẽ chỉ tính toán theo cách đó nếu bạn muốn nói điều gì đó về mẫu cụ thể.
Giăng

Tôi xin lỗi, tôi không hiểu tại sao dòng tóm tắt là một báo cáo không chính xác. Tôi nghĩ rằng tôi đang thiếu điểm trung tâm của bạn. Bạn có thể vui lòng giải thích?
Khoai tây

1
Bạn có thể bình thường hóa và sau đó trung bình, cho kết quả "chính xác" (A). Nhưng điều này bất hợp pháp. Trích dẫn sau đây là từ bài báo có liên quan trong Bách khoa toàn thư Stanford, có sẵn ở đây: plato.stanford.edu/entries/paradox-simpson
Khoai tây

2
"Reversals của Simpson cho thấy rằng có rất nhiều cách phân vùng dân số phù hợp với các hiệp hội trong tổng dân số. Phân vùng theo giới tính có thể chỉ ra rằng cả nam và nữ đều xấu hơn khi được điều trị mới, trong khi phân vùng của cùng một dân số theo độ tuổi chỉ ra rằng bệnh nhân dưới năm mươi và bệnh nhân năm mươi tuổi trở lên đều được điều trị mới tốt hơn. Bình thường hóa dữ liệu từ các cách phân vùng khác nhau của cùng một dân số sẽ đưa ra kết luận không tương thích về các hiệp hội trong tổng dân số. "
Khoai tây

4

Một "lấy đi" quan trọng là nếu chỉ định điều trị không tương xứng giữa các nhóm phụ, người ta phải tính đến các nhóm phụ khi phân tích dữ liệu.

Một "lấy đi" quan trọng thứ hai là các nghiên cứu quan sát đặc biệt dễ đưa ra câu trả lời sai do sự hiện diện chưa biết của nghịch lý Simpson. Đó là bởi vì chúng ta không thể sửa chữa cho thực tế rằng Điều trị A có xu hướng được đưa ra cho những trường hợp khó khăn hơn nếu chúng ta không biết rằng đó là.

Trong một nghiên cứu ngẫu nhiên đúng, chúng ta có thể (1) phân bổ điều trị ngẫu nhiên để mang lại "lợi thế không công bằng" cho một điều trị là rất khó xảy ra và sẽ tự động được quan tâm trong phân tích dữ liệu hoặc, (2) nếu có lý do quan trọng để làm như vậy, phân bổ các phương pháp điều trị ngẫu nhiên nhưng không tương xứng dựa trên một số vấn đề đã biết và sau đó tính đến vấn đề đó trong quá trình phân tích.


+1, tuy nhiên "tự động được chăm sóc" không hoàn toàn đúng (ít nhất là trong tình huống trước mắt, đó là điều bạn chủ yếu quan tâm). Điều này đúng trong thời gian dài, nhưng bạn vẫn có thể có nhiều lỗi loại I & loại II do lỗi lấy mẫu (nghĩa là bệnh nhân trong 1 tình trạng điều trị có xu hướng mắc các bệnh nghiêm trọng hơn nếu chỉ có cơ hội).
gung - Phục hồi Monica

Nhưng ảnh hưởng của lỗi lấy mẫu sẽ được tính đến khi chúng tôi phân tích bảng dự phòng và tính toán và giải thích chính xác giá trị p.
Emil Friedman
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.