Xác suất mà người này là nữ là gì?


32

Có một người đứng sau bức màn - Tôi không biết người đó là nữ hay nam.

Tôi biết người có mái tóc dài và 90% tất cả những người có mái tóc dài là nữ

Tôi biết người có nhóm máu hiếm AX3 và 80% tất cả những người có nhóm máu này là nữ.

Xác suất người đó là nữ là bao nhiêu?

LƯU Ý: công thức ban đầu này đã được mở rộng với hai giả định tiếp theo: 1. Nhóm máu và chiều dài tóc là độc lập 2. Tỷ lệ nam: nữ trong dân số lớn là 50:50

(Kịch bản cụ thể ở đây không liên quan lắm - thay vào đó, tôi có một dự án khẩn cấp đòi hỏi tôi phải suy nghĩ về cách tiếp cận chính xác để trả lời điều này. Tôi cảm thấy đó là một câu hỏi về xác suất đơn giản, với một câu trả lời dứt khoát đơn giản hơn một cái gì đó có nhiều câu trả lời gây tranh cãi theo các lý thuyết thống kê khác nhau.)


1
Không có nhiều lý thuyết về xác suất, nhưng điều nổi tiếng là mọi người gặp khó khăn khi nghĩ chính xác về xác suất. (Augustus DeMorgan, một nhà toán học giỏi, đã từ bỏ nghiên cứu xác suất do những khó khăn của nó.) Đừng nhìn vào các cuộc tranh luận: tìm kiếm sự hấp dẫn đối với các nguyên tắc xác suất (như tiên đề Kolmogorov). Đừng để điều này được giải quyết một cách dân chủ: câu hỏi của bạn đang thu hút nhiều câu trả lời sai lầm, ngay cả khi một số trong số chúng xảy ra đồng ý, chỉ đơn thuần là sai. @Michael C hướng dẫn tốt; câu trả lời của tôi cố gắng cho bạn thấy tại sao anh ấy đúng.
whuber

@Whuber, nếu giả định tính độc lập, bạn có đồng ý rằng 0.97297 là câu trả lời đúng không? (Tôi tin rằng câu trả lời có thể nằm trong khoảng từ 0% đến 100% mà không có giả định này - sơ đồ của bạn cho thấy điều này độc đáo).
Có lẽ là sai

Độc lập của cái gì, chính xác? Bạn có gợi ý rằng kiểu tóc nam và nữ giống nhau không? Như bạn nói trong câu hỏi của bạn, kịch bản cụ thể này liên quan đến giới tính / tóc / nhóm máu có thể không liên quan: điều đó cho tôi biết bạn tìm cách hiểu cách giải quyết các vấn đề như thế này nói chung. Để làm điều đó, bạn sẽ cần phải biết những giả định nào ngụ ý kết luận nào. Do đó, bạn cần tập trung rất cẩn thận vào các giả định mà bạn sẵn sàng đưa ra và xác định chính xác số tiền họ cho phép bạn kết luận.
whuber

3
Các loại độc lập để khám phá mối quan tâm kết hợp của cả ba đặc điểm. Ví dụ, nếu AX3 là dấu hiệu của hội chứng bao gồm hói đầu ở nữ (nhưng không phải ở nam), thì bất kỳ người có mái tóc dài nào với AX3 đều nhất thiết phải là nam, khiến xác suất là nữ 0%, không phải là 97,3%. Tôi hy vọng điều này cho thấy rõ rằng bất kỳ ai đưa ra câu trả lời chắc chắn cho câu hỏi này đều phải đưa ra các giả định bổ sung, ngay cả khi họ không công nhận rõ ràng. Các câu trả lời thực sự hữu ích, IMHO, sẽ là những câu trả lời trực tiếp về cách các giả định khác nhau dẫn đến kết quả khác nhau.
ai

2
Bạn đang thiếu khả năng một phụ nữ không có mái tóc dài. Đó là một biện pháp quan trọng.
Daniel R Hicks

Câu trả lời:


35

Nhiều người thấy hữu ích khi nghĩ về một nhóm "dân số", và các tỷ lệ (chứ không phải xác suất). Điều này cho vay để lý luận trực quan.

Tôi sẽ giải thích các con số một cách chi tiết, nhưng ý định là so sánh nhanh giữa hai con số sẽ ngay lập tức và cho thấy một cách thuyết phục như thế nào và tại sao không có câu trả lời cụ thể cho câu hỏi. Một bài kiểm tra dài hơn một chút sẽ cho thấy thông tin bổ sung nào sẽ hữu ích để xác định câu trả lời hoặc ít nhất là có được giới hạn về câu trả lời.

biểu đồ Venn

Huyền thoại

Nở chéo : nữ / Nền rắn : nam.

Hàng đầu : tóc dài / Dưới : tóc ngắn.

Phải (và có màu) : AX3 / Trái (không màu) : không phải AX3.

Dữ liệu

Nở chéo hàng đầu là 90% hình chữ nhật trên cùng ("90% tất cả những người có mái tóc dài là nữ").

Tổng số nở chéo trong hình chữ nhật màu bên phải là 80% hình chữ nhật đó ("80% tất cả những người có nhóm máu này là nữ.")

Giải trình

Sơ đồ này cho thấy sơ đồ làm thế nào dân số (của tất cả phụ nữ và không phải nữ giới đang xem xét) có thể được phân chia đồng thời thành nữ / không nữ, AX3 / không AX3, và tóc dài / không dài ("ngắn"). Nó sử dụng diện tích, ít nhất là xấp xỉ, để thể hiện tỷ lệ (có một số cường điệu để làm cho hình ảnh rõ hơn).

Rõ ràng là ba phân loại nhị phân này tạo ra tám nhóm có thể. Mỗi nhóm xuất hiện ở đây.

Thông tin được đưa ra nói rằng hình chữ nhật nở trên (con cái có lông dài) bao gồm 90% hình chữ nhật trên (tất cả những người có mái tóc dài). Nó cũng nói rằng các phần nở chéo kết hợp của hình chữ nhật màu (con cái có lông dài với AX3 và con cái có lông ngắn với AX3) chiếm 80% vùng màu ở bên phải (tất cả những người có AX3). Chúng ta được biết rằng ai đó nằm ở góc trên bên phải (mũi tên): người có mái tóc dài với AX3. Tỷ lệ nào của hình chữ nhật này là nở chéo (nữ)?

Tôi cũng đã (mặc nhiên) cho rằng nhóm máu và chiều dài tóc là độc lập : tỷ lệ của hình chữ nhật trên (tóc dài) có màu (AX3) bằng với tỷ lệ của hình chữ nhật dưới (tóc ngắn) có màu (AX3). Đó là ý nghĩa của sự độc lập. Đó là một giả định công bằng và tự nhiên để đưa ra khi giải quyết những câu hỏi như thế này, nhưng tất nhiên nó cần phải được nêu ra.

Vị trí của hình chữ nhật nở chéo phía trên (con cái có lông dài) là không rõ. Chúng ta có thể tưởng tượng trượt cạnh hình chữ nhật nở chéo trên cùng và trượt cạnh hình chữ nhật nở chéo bên dưới và có thể thay đổi chiều rộng của nó. Nếu chúng ta làm điều này để 80% hình chữ nhật màu vẫn nở chéo, sự thay đổi như vậy sẽ không thay đổi thông tin đã nêu, nhưng nó có thể thay đổi tỷ lệ nữ trong hình chữ nhật phía trên bên phải. Rõ ràng tỷ lệ có thể nằm trong khoảng từ 0% đến 100% và vẫn phù hợp với thông tin được cung cấp, như trong hình ảnh này:

Hình 2


Một điểm mạnh của phương pháp này là nó thiết lập sự tồn tại của nhiều câu trả lời cho câu hỏi. Người ta có thể dịch tất cả các đại số này và, bằng cách quy định xác suất, đưa ra các tình huống cụ thể như các ví dụ có thể, nhưng sau đó câu hỏi sẽ đặt ra liệu các ví dụ đó có thực sự phù hợp với dữ liệu hay không. Ví dụ, nếu ai đó đề nghị rằng có lẽ 50% người tóc dài là AX3, thì ngay từ đầu, không có gì rõ ràng rằng điều này thậm chí có thể được cung cấp cho tất cả các thông tin có sẵn. Các sơ đồ (Venn) của dân số và các nhóm nhỏ của nó làm cho những điều đó rõ ràng.


3
Whuber, giả sử rằng nhóm máu và chiều dài tóc là độc lập, thì chắc chắn phần của phụ nữ tóc dài với loại AX3 nên giống như phần của phụ nữ tóc ngắn với AX3? Tức là bạn không linh hoạt để thay đổi hình chữ nhật theo cách bạn đề xuất ... Nếu chúng tôi cũng cho rằng đàn ông và phụ nữ là 50:50 trong toàn bộ dân số, không cung cấp cho chúng tôi đủ thông tin để giải quyết câu hỏi này bằng một Câu trả lời không thể chối cãi?
Có lẽ là sai

@whuber +1 rất hay.
Michael R. Chernick

5
Có lẽ là sai, hãy xem xét kỹ câu hỏi trong bình luận của bạn: bởi vì nó liên quan đến phụ nữ , nó đang đưa ra một giả định bổ sung về sự độc lập có điều kiện về giới tính. Giả định về sự độc lập (vô điều kiện) của tóc và nhóm máu hoàn toàn không đề cập đến giới tính, vì vậy để hiểu ý nghĩa của nó, hãy xóa bỏ sự nở chéo khỏi các hình. Điều này, tôi hy vọng, chỉ ra lý do tại sao chúng ta có thể linh hoạt để tạo ra sự nở chéo bất cứ nơi nào chúng ta muốn trong các hình chữ nhật trên và dưới.
whuber

1
@whuber, tôi thích cái này Tuy nhiên, tôi có 2 câu hỏi / làm rõ: 1. các số liệu dường như giả định tỷ lệ dân số cho tóc dài so với tóc ngắn (khoảng 6: 4) & ~ AX3 so với AX3 (khoảng 85:15), nhưng điều này không được đề cập trong câu hỏi ban đầu cũng không thảo luận trong lời giải thích của bạn về các số liệu. Tôi nghi ngờ tỷ lệ pop không liên quan. Tôi có đúng / bạn có thể làm rõ điều đó trong phần giải thích không? 2. Tôi nghĩ rằng tình huống này cuối cùng vẫn hoạt động với cùng một hiện tượng như Nghịch lý của Simpson , chỉ đóng khung khác nhau (đến vấn đề từ hướng khác, như nó đã xảy ra). Đo co phải la đanh gia khach quan không?
gung - Tái lập Monica

3
@gung, cảm ơn bạn đã làm rõ những điều đó. Các số liệu tất nhiên phải đại diện cho một số tỷ lệ để hoạt động, nhưng bất kỳ tỷ lệ nào không được xác định cụ thể trong báo cáo vấn đề đều có thể tự do thay đổi. . Tôi nghĩ rằng nó có công.
whuber

13

Đây là một câu hỏi về xác suất có điều kiện. Bạn biết rằng người đó có mái tóc dài và nhóm máu Ax3. Đặt A = { 'Người có mái tóc dài' } Vì vậy, bạn tìm kiếm P ( C | A B ) . Bạn biết rằng P ( C | A ) = 0,9 P ( C | B ) = 0,8 . Như vậy đã đủ để tính P ( C | A B ) chưa? Giả sử P ( A B C. Sau đó P

     A={'The person has long hair'}              B={'The person has blood type Ax3'}C={'The person is female'}.

P(C|A and B)P(C|A)=0.9P(C|B)=0.8
P(C|A and B)P(A and B and C)=0.7 Giả sử P ( A B ) = 0,8 . Khi đó, bằng cách trên, P ( C | A B ) = 0.875
P(C|A and B)=P(A and B and C)/P(A and B)=0.7/P(A and B).
P(A and B)=0.8P(C|A and B)=0.875. Mặt khác, nếu thì chúng ta sẽ có P ( C | A B ) = 0,78.P(A and B)=0.9P(C|A and B)

Bây giờ cả hai đều có thể khi P ( C | B ) = 0,8 . Vì vậy, chúng ta không thể biết chắc P ( C | A B ) là gì.P(C|A)=0.9P(C|B)=0.8P(C|A and B)


Xin chào Michael, Nếu tôi đọc đúng bạn, bạn đang nói câu hỏi như được đặt ra không thể trả lời được, phải không? Hay nói cách khác, bạn cần thêm thông tin để trả lời câu hỏi này? 1. Giả sử rằng nhóm máu hiếm trong câu hỏi ban đầu của tôi không có bất kỳ tác động nào đến mong muốn hoặc khả năng mọc tóc dài của một người. Câu hỏi bây giờ có thể được trả lời không? 2. Bạn có đồng ý rằng câu trả lời phải TUYỆT VỜI hơn 0,9 không? (Bởi vì bạn có một thông tin độc lập thứ hai - nhóm máu - củng cố giả thuyết rằng người đó là nữ)
Có lẽ là sai

2
Nếu là độc lập, thì P ( A  và  B ) = P ( A ) PP(A and B) và bạn sẽ cần chỉ định phần nào của người có mái tóc dài, tức là P ( A ) và phần nào của những người có nhóm máu Ax3, tức là P ( B ) . Ngoài ra, bạn không thể nói rằng câu trả lời phải lớn hơn 0,9, tương đương với việc nói rằng P ( C | A  và  B )P(A and B)=P(A)P(B)P(A)P(B)P(C|A and B)>0.9(Tôi thực sự không thấy lý do tại sao).
Néstor

2
@ProbinglyWrong. Có, vấn đề như đã nêu ban đầu không đủ thông tin cho một câu trả lời duy nhất.
Michael R. Chernick

@ Néstor, Micahael, tôi không đồng ý rằng chúng ta cần biết phần nào của người có mái tóc dài hoặc phần nào của người có nhóm máu AX3. Tôi nghĩ rằng câu trả lời cho câu hỏi ban đầu giải quyết duy nhất mà không biết những điều này (giả sử A và B là độc lập, mà tất cả chúng ta đều có, và giả sử chúng ta biết sự phân chia nam nữ trong toàn dân - không phải là không có lý khi cho rằng khoảng 50:50 , Tôi nghĩ).
Có lẽ là sai

7
Tại sao Tôi nghĩ rằng P
P(C|A and B)=P(A and B and C)×P(A and B)??
bằng cách sử dụng định nghĩa của xác suất có điều kiện.
P(C|AB)=P(C(AB))P(AB)=P(ABC)P(AB)
Dilip Sarwate

4

Thảo luận hấp dẫn! Tôi tự hỏi nếu chúng tôi chỉ định P (A) và P (B) cũng như liệu phạm vi của P (C | A, B) sẽ không hẹp hơn nhiều so với khoảng đầy đủ [0,1], đơn giản vì có nhiều ràng buộc chúng ta có.

Bám sát các ký hiệu được giới thiệu ở trên:

A = sự kiện người đó có mái tóc dài

B = sự kiện người đó có nhóm máu AX3

C = sự kiện người đó là nữ

P (C | A) = 0,9

P (C | B) = 0,8

P (C) = 0,5 (tức là giả sử tỷ lệ nam và nữ trong dân số lớn)

dường như không thể cho rằng các sự kiện A và B là độc lập có điều kiện với C! Đó là dẫn trực tiếp đến một mâu thuẫn: nếu P(AB|C)=P(A|C)P(B|C)=P(C|A)P(A)P(C)P(C|B)P(B)P(C)

sau đó

P(C|AB)=P(AB|C)(P(C)P(AB))=P(C|A)P(A)P(C)P(C|B)P(B)P(C)(P(C)P(AB))

P(AB)=P(A)P(B)

P(C|AB)=P(C|A)P(C|B)P(C)=0.90.80.5>1

Following up on whuber's wonderful geometric representation of the problem: While it is true that generally speaking P(C|AB) can assume any value in the interval [0,1] the geometric constraints do narrow the range of possible values significantly for values of P(A) and P(B) that are not "too small". (Though we can also upper bound the marginals: P(A) and P(B))

Let us compute the {\bf smallest possible value} for P(C|AB) under the following geometric constraints:

1. The fraction of the upper area (A TRUE) covered by the upper rectangle must be equal to P(C|A)=0.9

2. The sum of the areas of the two rectangles must be equal to P(C)=0.5

3. The sum of the fraction of the areas of the two colored rectangles (i.e. their overlap with event B) must be equal to P(C|B)=0.8

4. (trivial) The upper rectangle cannot be moved beyond the left boundary and should not be moved beyond its minimum overlap to the left.

5. (trivial) The lower rectangle cannot be moved beyond the right boundary and should not be moved beyond its maximum overlap to the right.

These constraints limit how freely we can slide the hashed rectangles and in turn generate lower bounds for P(C|AB). The figure below (created with this R script ) shows two examples enter image description here

Running through a range of possible values for P(A) and P(B) (R script) generates this graph enter image description here

In conclusion, we can lower bound the conditional probability P(c|A,B) for given P(A), P(B)


2
Markus, the first paragraph belongs as a separate question rather than within an answer. The subsequent material looks like a good observation but it is hard to follow without being told what A,B, and C represent. Please bear in mind that different users will see the answers in different sequences, according to their preferences and when the answers were last edited, so each answer has to be readable independently of the others (although of course you can link to other answers).
whuber

1
@whuber: thanks for the useful comment ! I hope the new edits make it more readable and clear.
Markus Loecher

@whuber and others: I had hoped to reignite the discussion but the thread seems to have gone inactive ? No more comments by anyone ?
Markus Loecher

1

Make the hypotheses is that the person behind a curtain is a woman.

We area given 2 pieces of evidence, namely:

Evidence 1: We know the person has long hair (and we're told that 90% of all people with long hair are female)

Evidence 2: We know the person has a rare blood type AX3 (and we're told that 80% of all people with this blood type are female)

Given just Evidence 1, we can state that the person behind a curtain has a 0.9 probability value of being a woman (assuming 50:50 split between men and women).

Regarding the question posed earlier in the thread, namely "Would you agree that the answer must be GREATER than 0.9?", without doing any Math, I would say intuitively, the answer must be "yes" (it is GREATER than 0.9). The logic is that Evidence 2 is supporting evidence (again, assuming a 50:50 split for the number of men and women in the world). If we were told that 50% of all people with AX3 type blood were female, then Evidence 2 would be neutral and have no bearing. But since we're told that 80% of all people with this blood type are female, Evidence 2 is supporting evidence and logically should push the final probability of a woman above 0.9.

To calculate a specific probability, we can apply Bayes' rule for Evidence 1 and then use Bayesian updating to apply Evidence 2 to the new hypothesis.

Suppose:

A = the event that the person has long hair

B = the event that the person has blood type AX3

C = the event that person is female (assume 50%)

Applying Bayes rule to Evidence 1:

P(C|A) = (P(A|C) * P(C)) / P(A)

In this case, again if we assume 50:50 split between men and women:

P(A) = (0.5 * 0.9) + (0.5 * 0.1) = 0.5

So, P(C|A) = (0.9 * 0.5) / 0.5 = 0.9 (Not surprising, but it would be different if we didn't have 50:50 split between men and women)

Using Bayesian updating to apply Evidence 2 and plugging in 0.9 as the new prior probability, we have:

P(C|A AND B) = (P(B|C) * 0.9) / P(E)

Here, P(E) is the probability of Evidence 2, given the hypotheses that the person already has a 90% chance of being female.

P(E) = (0.9 * 0.8) + (0.1 * 0.2) [this is law of total probability: (P(woman)*P(AX3|woman) + P(man)*P(AX3|man)] So, P(E) = 0.74

So, P(C|A AND B) = (0.8 * 0.9) / 0.74 = 0.97297


1
There are a few statements in your answer that do not make sense to me. (1) P(C|A)=0.9 by assumption. Nowhere was it said that P(C)=0.9. We assumed P(C)=0.5. (2) How did you get the result for P(E)? P(woman)=P(man)=0.5 by assumption where you write P(woman)=0.9.
Michael R. Chernick

The value of P(C) is assumed at 0.5, which is what I've used. The value for P(E) is the probability of Evidence 2 after applying Evidence 1 (which leads to a new hypotheses that the probability that the person is female is 0.9). P(E) = (probability that the person is a woman (given Evience 1) * probability the the person has AX3 if a woman) + (probability that the person is a man (given Evience 1) * probability the the person has AX3 if a man) = (0.9 * 0.8) + (0.1 * 0.2) = 0.74
RandomAnswer

Your definition of probability of E is a bit confusing and the terms you are using to calculate it look different from what you wrote before. It really doesn't matter though. The answer is apparently correct based on Huu's nicely presented answer.
Michael R. Chernick

@Michael Except it appears Huu made mistakes.
whuber

2
This answer is simply wrong. There may be other errors, but this one is glaring. You state a definitive answer for P("Has Long Hair") (your P(A)), and then use that to give your final definitive answer. There simply isn't enough information to determine this, even assuming P(F) = 0.5. Your line to calculate P(A) seems to come from nowhere. Here is the correct formula using Bayes theroem: P(A) = P(A|F)P(F)/P(F|A) from which, using your stated assumptions, get to P(A) = P(A|F)*5/9. However we still don't know P(A|F), which could be anything.
Bogdanovist

0

Question Restatement and Generalisation

A, B, and C are binary unknowns whose possible values are 0 and 1. Let Zi stand for the proposition, "The value of Z is i". Also let (X|Y) stand for "The probability that X, given that Y". What is (Aa|BbCcI), given that

  1. (Aa1|Bb1I)=u1 and (Aa2|Cc2I)=u2
  2. (Aa1|Bb1I)=u1 and (Aa2|Cc2I)=u2 and (BC|I)=(B|I)(C|I)
  3. (Aa1|Bb1I)=u1 and (Aa2|Cc2I)=u2 and (A0|I)=12
  4. (Aa1|Bb1I)=u1 and (Aa2|Cc2I)=u2 and (A0|I)=12 and (BC|I)=(B|I)(C|I)

and that I contains no relevant information besides what is implicit in the assignments? The last conjunct of conditions 2 and 4 is shorthand for the independence statement

(BjCk|I)=(Bj|I)(Ck|I),j=0,1k=0,1
Treat each of the four cases in turn.

Answers

Case 1

We have to specify the distribution (ABC|I). The problem is underdetermined, because (ABC|I) requires eight numbers, but we have only three equations---the two given conditions and the normalisation condition.

It has been shown by various esoteric means that the distribution to assign when the information doesn't otherwise determine a solution is the one that, of all distributions consistent with the known information, has the greatest entropy. Any other distribution implies that we know more than the known information, which of course is a contradiction.

All we need to do, therefore, is assign the maximum entropy distribution. This is more easily said than done, and I have not found a general closed-form solution. But particular solutions can be found using a numerical optimiser. We maximise

i,j,k(AiBjCk|I)ln(AiBjCk|I)
subject to the constraints
i,j,k(AiBjCk|I)=1
and
(Aa1|Bb1I)=u1i.e.k(Aa1Bb1Ck|I)i,k(AiBb1Ck|I)=u1
and
(Aa2|Cc2I)=u2i.e.j(Aa2BjCc2|I)i,j(AiBjCc2|I)=u2
Now let's apply this to the question. If we have

  1. "The person is female" A1
  2. "The person has long hair" B1
  3. "The person has blood type AX3" C1

then a=1, b=1, c=1, a1=1, b1=1, a2=1, c2=1, u1=0.9, u2=0.8, and we find that for the maximum entropy solution, (A1|B1C1I)0.932. Therefore the probability that the person behind the curtain is female, given that he/she has long hair and blood type AX3, is 0.932.

Case 2

Now we repeat the exercise with the extra constraint that for a given person, knowing the value of B (the hair state) does not affect our estimate of the value of C (the blood type state), and vice versa. Everything is the same as in Case 1, except there are two extra constraints in the optimisation, namely:

(B0|ClI)=(B0|I),l=0,1
i.e.
i(AiB0Cl|I)i,j(AiBjCl|I)=i,k(AiB0Ck|I),l=0,1
This gives (A1|B1C1I)0.936, so the probability that the person behind the curtain is female, given that he/she has long hair and blood type AX3, is 0.936.

Case 3

Now we remove the independence condition and replace it with the prior condition that there is an equal chance that a given person is male or female:

(A0|I)=12i.e.j,k(A0BjCk|I)=12
This time (A1|B1C1I)0.973, so the probability that the person behind the curtain is female, given that he/she has long hair and blood type AX3, is 0.973.

Case 4

Finally we reintroduce the independence constraints of Case 2, and find that (A1|B1C1I)0.989. Therefore the probability that the person behind the curtain is female, given that he/she has long hair and blood type AX3, is 0.989.


-2

I believe now that, if we assume a ratio of men and women in the population at large, then there is a single indisputable answer.

A = the event that the person has long hair

B = the event that the person has blood type AX3

C = the event that person is female

P(C|A) = 0.9

P(C|B) = 0.8

P(C) = 0.5 (i.e. let's assume an equal ratio of men and women in the population at large)

Then P(C|A and B) = [P(C|A) x P(C|B) / P(C)] / [[P(C|A) x P(C|B) / P(C)] + [[1-P(C|A)] x [1-P(C|B)] / [1-P(C)]]]

in this case, P(C|A and B) = 0.972973


P[C|A and B)= P(A and B and C)/P(A and B)=P(A and B and C)/ [P(A|B) P(B)]. How did you get your formula?
Michael R. Chernick

There is probably a way to add conditions so that you get a unique answer.
Michael R. Chernick

To add by independence of A and B the formula simplifies to P(A and B and C}/[P(A) P(B)]=P(B and C|A)/P(B).
Michael R. Chernick

2
The intent of my question was really for you to justify the formula. I don't understand how it would be derived.
Michael R. Chernick

2
No, the answer that supposedly used Bayes Rule is incorrect. I'm not sure why you are confused, MC's formula above is correct and cannot be used to get any result, that's what his and Whuber's answers to the question explained!
Bogdanovist

-2

Note: In order to get a definitive answer, the below answers assume that the probability of a person, a long-haired man, and a long-haired women having AX3 are approximately the same. If more accuracy is desired, this should be verified.

You start out with the knowledge that the person has long hair, so at this point the odds are:

90:10

Note: The ratio of males to females in the general population does not matter to us once we find out the person has long hair. For example, if there were 1 female in a hundred in the general population, a randomly-selected long-haired person would still be a female 90% of the time. The ratio of females to males DOES matter! (see the update below for details)

Next, we learn that the person has AX3. Because AX3 is unrelated to long hair, the ratio of men to women is known to be 50:50, and because of our assumption of the probabilities being the same, we can simply multiply each side of the probability and normalize so that the sum of the sides of the probability equals 100:

(90:10) * (80:20)
==> 7200:200

    Normalize by dividing each side by (7200+200)/100 = 74

==> 7200/74:200/74
==> 97.297.. : 2.702..

Thus, the chance that the person behind the curtain is female is approximately 97.297%.

UPDATE

Here's a further exploration of the problem:

Definitions:

f - number of females
m - number of males
fl - number of females with long hair
ml - number of males with long hair
fx - number of females with AX3
mx - number of males with AX3
flx - number of females with long hair and AX3
mlx - number of males with long hair and AX3
pfl - probability that a female has long hair
pml - probability that a male has long hair
pfx - probability that a female has AX3
pmx - probability that a male has AX3

First, we are given that 90% of long-haired people are females, and 80% of people with AX3 are female, so:

fl = 9 * ml
pfl = fl / f
pml = ml / m 
    = fl / (9 * m)

fx = 4 * mx
pfx = fx / f
pmx = mx / m 
    = fx / (4 * m)

Because we assumed that the probability of AX3 is independent of gender and long hair, our calculated pfx will apply to women with long hair, and pmx will apply to men with long-hair to find the number of them that likely have AX3:

flx = fl * pfx 
    = fl * (fx / f) 
    = (fl * fx) / f
mlx = ml * pmx 
    = (fl / 9) * (fx / (4 * m)) 
    = (fl * fx) / (36 * m)

Thus, the likely ratio of the number of females with long-hair and AX3 to the number of males with long-hair and AX3 is:

flx             :   mlx
(fl * fx) / f   :   (fl * fx) / (36 * m)
1/f             :   1 / (36m)
36m             :   f

Because it is given that there is an equal number of 50:50, you can cancel both sides and end with 36 females to every male. Otherwise, there are 36*m/f females for every male in the specified subgroup. For example, if there were twice as many women as men, there would be 72 females to each male of those that have long-hair and AX3.


1
This solution relies on assuming more than is currently stated in the problem: namely, that long hair, AX3, and gender are independent. Otherwise, you cannot justify "applying" pfx to women with long hair, etc.
whuber

@whuber: Yes, I do make that assumption. However, isn't the purpose of probability to give the best approximation based on the data that you have? Thus, since you already know that long-hair and AX3 are independent for the general population, you SHOULD carry forward that assumption to males and females until you explicitly learn otherwise. Granted, it is not a universally correct one, but it is the best one you can make until you get more info. Q: With only the current data, if you had to give the % chance that it was a woman behind the curtain, would you really say "between 0 and 100%"?
Briguy37

1
We have an important difference in philosophy, @Briguy. I strongly believe in not making unfounded assumptions. It is not clear in what sense the mutual independence assumption is "best": I will grant it may be in certain applications. But in general, that seems dangerous to me. I would prefer being clear about the assumptions needed to solve a problem, so people can decide whether it is worthwhile collecting the data to check those assumptions, rather than assuming things that are mathematically convenient for the sake of obtaining an answer. That's the difference between stats and math.
whuber

To answer your question: yes, 0% - 100% is exactly the answer I would give. (I have given similar answers to comparable questions on this site.) That range accurately reflects the uncertainty. This issue is closely related to the Ellsberg paradox. Ellsberg's original paper is well written and clear: I recommend it.
whuber

@whuber: Thanks for taking the time to dialogue with me. I see your point about the importance of thinking through and listing the assumptions made, and have updated my answer accordingly. However, in regards to your answer, I believe it is incomplete. The reason for this is that you can consider all unknown cases and find the average probability of across all of them to arrive at your final answer. E.G. Though both are still possible, probabilities above 50% are much more prevalent than probabilities below 50% across all cases, so we are surely better off guessing that it is a woman.
Briguy37

-4

98% Female, simple interpolation. First premise 90% female, leaves 10%, second premise only leaves 2% of the existing 10%, hence 98% female

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.