Thống kê quan trọng hơn: '90 phần trăm tất cả phụ nữ sống sót 'hay '90 phần trăm tất cả những người sống sót là phụ nữ'?


14

Hãy xem xét các tuyên bố sau đây viết Titanic:

Giả định 1: Chỉ có đàn ông và phụ nữ ở trên tàu

Giả định 2: Có một số lượng lớn nam giới cũng như phụ nữ

Tuyên bố 1: 90 phần trăm của tất cả phụ nữ sống sót

Tuyên bố 2: 90 phần trăm tất cả những người sống sót, là phụ nữ

Điều đầu tiên chỉ ra rằng cứu phụ nữ có lẽ là ưu tiên cao (không phân biệt việc cứu đàn ông là gì)

Khi nào thì thống kê thứ hai hữu ích?

Chúng ta có thể nói rằng một trong số chúng hầu như luôn hữu ích hơn những thứ khác không?


40
Hữu ích hơn cho mục đích gì?
Aksakal

12
Ngạc nhiên vì không có câu trả lời nào trong số này đã đề cập đến Nghịch lý của Simpson
Nemo

3
Tôi muốn nói rằng điều đó phụ thuộc vào việc bạn có phải là phụ nữ hay không!
meh

6
Tuyên bố đầu tiên không có ý nghĩa nếu không có một thống kê so sánh cho nam giới.
Barmar

1
@RahulSaha Nhưng nếu 95% nam giới sống sót, hệ lụy có thể là họ ưu tiên cao hơn cho nam giới. Đó là lý do tại sao cần phải so sánh.
Barmar

Câu trả lời:


54

Khi họ đứng, không một trong các Tuyên bố 1 hoặc 2 là rất hữu ích. Nếu 90% hành khách là phụ nữ và 90% người sống sót ngẫu nhiên, thì cả hai tuyên bố đều đúng. Các tuyên bố cần được xem xét trong bối cảnh thành phần tổng thể của hành khách. Và cơ hội sống sót chung.


Giả sử chúng ta có nhiều đàn ông như phụ nữ, mỗi người 100 người. Dưới đây là một vài ma trận có thể có của đàn ông (M) chống lại phụ nữ (W) và sống sót (S) chống lại người chết (D):

  |  M |  W
------------
S | 90 | 90
------------
D | 10 | 10

90% phụ nữ sống sót. Cũng như 90% nam giới. Tuyên bố 1 là đúng, Tuyên bố 2 là sai, vì một nửa số người sống sót là phụ nữ. Điều này phù hợp với nhiều người sống sót, nhưng không có sự khác biệt giữa các giới tính .

  |  M |  W
------------
S | 10 | 90
------------
D | 90 | 10

90% phụ nữ sống sót, nhưng chỉ có 10% nam giới. 90% những người sống sót là phụ nữ. Cả hai tuyên bố đều đúng. Điều này phù hợp với sự khác biệt giữa giới tính : phụ nữ có khả năng sống sót cao hơn nam giới.

  |  M |  W
------------
S |  1 |  9
------------
D | 99 | 91

9% phụ nữ sống sót, nhưng chỉ có 1% nam giới. 90% những người sống sót là phụ nữ. Tuyên bố 1 là sai, Tuyên bố 2 là đúng. Điều này một lần nữa phù hợp với sự khác biệt giữa giới tính : phụ nữ có khả năng sống sót cao hơn nam giới.


3
(or indeed, if *everyone* survived)... Nếu tất cả mọi người sống sót thì 100% tất cả phụ nữ đều sống sót, bất kể tỷ lệ.
Bridrideurners

1
@Bridolturners: bạn hoàn toàn đúng, và nó đánh tôi khi tôi rời khỏi máy tính của tôi. Cảm ơn bạn, tôi đã chỉnh sửa câu trả lời của tôi.
S. Kolassa - Tái lập Monica

18

Về mặt, xác suất có điều kiện sống sót có điều kiện về tình dục là hữu ích hơn, đơn giản là vì hướng của luồng thông tin. Giới tính của một người được biết trước tình trạng sống sót của cô ấy và xác suất này có thể được sử dụng theo nghĩa tiên đoán, có triển vọng. Ngoài ra, nó không bị ảnh hưởng bởi sự phổ biến của phụ nữ. Khi nghi ngờ, hãy suy đoán dự đoán.


Vâng, ở mặt của nó. Vì vậy, chỉ để đảm bảo rằng tôi hiểu cách áp dụng cho số liệu thống kê thực tế trong câu hỏi ... bạn đang nói câu số 1 rất hữu ích vì nó cho tôi biết rằng nếu tôi tình cờ là phụ nữ, hãy lên tàu chở khách lớn vào năm 1912 tình cờ bị chìm trong vùng nước bị băng trôi, thì khả năng tôi sống sót là 90%? Và, thêm vào giả định hợp lý rằng công nghệ cứu hộ và thực hành đã được cải thiện kể từ đó, điều đó có nghĩa là cơ hội tôi sống sót trong tình huống như vậy ngày nay có lẽ còn tốt hơn 90%? Mát mẻ! ;-)
Don nở

Những ý kiến ​​để bán vượt quá mục tiêu mô tả ban đầu.
Frank Harrell

Bạn có chắc là bạn đã có mục tiêu đúng không? Câu hỏi rõ ràng là về tính hữu ích của những tuyên bố này về Titanic thực sự, trong thực tế, không phải là tất cả hữu ích để đưa ra dự đoán, bởi vì rất nhiều điều đã thay đổi kể từ đó. Vì vậy, có vẻ như heuristic của bạn đã thất bại trong ví dụ thực tế đầu tiên ném vào nó, phải không? Đó dường như không phải là một khởi đầu tốt. Mặt khác, có lẽ OP dành câu hỏi Titanic là một proxy cho câu hỏi chung về hình thức tương tự áp dụng cho tình huống hiện tại mà làm có liên quan dự báo; Tôi không biết.
Don nở

1
Giống như tôi có một nghiên cứu trường hợp chi tiết về xác suất sống sót của hành khách TItanic trong cuốn sách Chiến lược mô hình hồi quy của tôi , có rất nhiều giá trị trong việc khám phá những gì đã xảy ra. Tôi không sử dụng các xác suất dự đoán từ mô hình logistic đó để dự đoán cho Titanics trong tương lai mà thay vào đó để khám phá các mẫu trong quy trình lựa chọn xuồng cứu sinh.
Frank Harrell

6

Điều đầu tiên chỉ ra rằng cứu phụ nữ có lẽ là ưu tiên cao (không phân biệt việc cứu đàn ông là gì)

Từ "ưu tiên" xuất phát từ tiếng Latin có nghĩa là "trước". Ưu tiên là thứ gì đó xuất hiện trước một thứ khác (trong đó "trước" đang được sử dụng theo nghĩa "quan trọng hơn"). Nếu bạn nói rằng cứu phụ nữ là ưu tiên hàng đầu, thì cứu phụ nữ phải đến trước một điều gì khác. Và giả định tự nhiên là những gì nó đến trước là cứu người đàn ông. Nếu bạn nói "không phân biệt việc cứu người là", thì chúng ta sẽ tự hỏi điều gì xảy ra trước đó.

Phụ nữ có tỷ lệ sống cao không nói gì nhiều, nếu chúng ta không biết tỷ lệ sống chung là gì. Con tàu cuối cùng tôi đi, hơn 90% phụ nữ sống sót, nhưng tôi không mô tả điều đó như thể hiện rằng cứu phụ nữ là ưu tiên hàng đầu.

Và biết bao nhiêu phần trăm người sống sót là phụ nữ không nói nhiều mà không biết bao nhiêu phần trăm tổng số người là phụ nữ.

Thống kê nào hữu ích hơn thực sự phụ thuộc vào tình huống. Nếu bạn muốn biết mức độ nguy hiểm của một thứ gì đó, tỷ lệ tử vong là quan trọng hơn. Nếu bạn muốn biết điều gì ảnh hưởng đến mức độ nguy hiểm của một thứ gì đó, thì tỷ lệ phần trăm thương vong là rất quan trọng.


2
Bài phê bình hay :-) "Con tàu cuối cùng tôi đi, hơn 90% phụ nữ sống sót, nhưng tôi không mô tả điều đó như thể hiện rằng cứu phụ nữ là ưu tiên hàng đầu." Chắc chắn rằng nó .. ưu tiên cao so với việc bán chúng quá mức! Chắc chắn, đây là một cách giải thích vô lý về "ưu tiên cao", nhưng vì OP đã loại trừ cách giải thích "ưu tiên cao hơn cứu người", tất cả những gì chúng ta còn lại là những diễn giải vô lý.
Don nở

3

Nó có thể hữu ích cho chúng tôi để kiểm tra các xác suất này có liên quan như thế nào.

WS

P(S|W)=0.9

P(W|S)=0.9

Định lý Bayes minh họa cách các tuyên bố xác suất này có liên quan.

P(S|W)=P(W|S)P(S)P(W)

P(S)P(W) (tỷ lệ Phụ nữ trên titanic) khá dễ dàng để tìm kiếm, và do đó xác suất phụ thuộc vào nhau. Đó là, biết một định nghĩa đầy đủ khác.

P(S)P(W)


3
Ngược lại, tôi cũng nói rằng, nếu cả P ​​(S) và P (W) đều không biết, thì cả P ​​(S | W) và P (W | S) đều phải chịu sự thiếu hữu ích tương tự. Tôi chưa có một hình ảnh rõ ràng trong tâm trí của tôi về những gì có thể được nói nếu biết chính xác một trong những P (S) và P (W).
Don nở

@DonHatch, bạn có đồng ý rằng câu trả lời của Stephan sẽ xem xét trường hợp biết chính xác một trong hai. Anh ta đang mặc nhiên cho rằngP(W)= =0,5.
knrumsey

1
Vâng, điều đó có vẻ đúng, và phán quyết dường như là thông tin không đầy đủ thậm chí còn được đưa ra. Tôi phải nói rằng, mỗi khi tôi bắt đầu nghĩ về những thông tin nào tôi có thể trích xuất từ ​​chỉ P (W | S) hoặc chỉ P (S | W), thậm chí thêm P (W) hoặc bất cứ điều gì, tôi cuối cùng nghĩ "tại sao lại ở trên trái đất Tôi nghĩ về điều này? Tại sao họ chỉ cho tôi những phần trăm đó? Chỉ cho tôi xem toàn bộ bảng ".
Don nở

3

Nó phụ thuộc vào những gì một người coi là hữu ích.

Nếu một người chủ yếu quan tâm đến việc phụ nữ có được ưu tiên cao hơn nam giới hay không, tức là P(S|W)>P(S|M), sau đó cả hai tuyên bố đều vô dụng như nhau mà không có thêm thông tin, vì @StephanKolassa và @knrumsey đã nói trong câu trả lời của họ. Nếu ai đó có ý định thể hiện loại thông tin này, họ cần nói nhiều hơn câu 1, chẳng hạn như "90 phần trăm phụ nữ sống sót, nhưng chỉ có 20 phần trăm nam giới sống sót".

Mặt khác, nếu bạn đang tự hỏi tại sao những câu chuyện sống sót chủ yếu là từ phụ nữ, thì câu 2 sẽ giải thích điều đó, khiến cho câu 2 trở nên hữu ích ngay cả khi không có thông tin khác.

Tôi không thể nghĩ bất cứ điều gì tuyên bố 1 là hữu ích cho bối cảnh. Nó chắc chắn không nói bất cứ điều gì về ưu tiên dành cho việc cứu phụ nữ, so với bất cứ điều gì khác. Điều duy nhất câu 1 làm cho tôi là nó khiến tôi nói "nói cho tôi biết thêm".


0

Nhìn bề ngoài (hoặc tách biệt với thực tế) cả hai tuyên bố dường như đều vô dụng như nhau đối với mục tiêu nhà nước. Tuy nhiên, xem xét bối cảnh, tuyên bố thứ hai rõ ràng hữu ích hơn.

Tuyên bố 2

Chúng ta hãy xem những gì chúng ta có thể trích xuất từ ​​tuyên bố thứ hai. Tỷ lệ nữw trong số tất cả sống sót là:

w= =px/(px+(1-p)z)
Ở đâu p - tỷ lệ nữ trong số hành khách, xzlà xác suất sống sót của phụ nữ và nam giới. Mẫu số là tổng tỷ lệ sống.

Chúng tôi đang thử nghiệm hypo H0:x>z

Hãy viết lại phương trình để có được các điều kiện cần thiết cho H0:

(1-w)px= =w(1-p)z
x=w(1p)z/((1w)p)
For H0 to hold we have:
x=w(1p)z/((1w)p)>z
w(1p)>(1w)p
0.9(1p)>0.1p
1p>p/9
p<0.9

So, for your hypo that women were more likely to survive, all you need is to check that there were less than 90% women among the passengers. This is consistent with your assumption 2, which seems to imply that p1/2. Hence, I declare that statement 2 all but asserts that women were more likely to survive, i.e. it's quite useful for your goal.

Statement 1

The first statement is truly useless in isolation, but has a limited use in the context. If we pretend we know nothing about the event, then saying that x=0.9 tells us nothing about z, and whether x>z?

However, from that little that I know about the event - I haven't seen the movie - it seems unlikely that xz. Why?

We know from Assumption 2 that p1/2, so the total survival rate is px+(1p)z. If we assume that xz and p1/2 we get

px+(1p)zx=0.9
In other words 90% of all passengers survived, which doesn't ring true to me. Would they make a movie and talk about it for 100 years if 90% of passengers survived? So, it must be that x>>z and less than half of passengers made it.

Conclusion

I'd say that both statements support your hypo that women were more likely to survive than men, but Statement 1 does so rather weakly, while Statement 2 in combination with assumptions almost surely establishes your hypo as a fact.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.