Statistics.com đã công bố một vấn đề trong tuần: Tỷ lệ gian lận bảo hiểm dân cư là 10% (một trong mười yêu cầu là gian lận). Một nhà tư vấn đã đề xuất một hệ thống máy học để xem xét các khiếu nại và phân loại chúng là gian lận hoặc không gian lận. Hệ thống này có hiệu quả 90% trong việc phát hiện các khiếu nại gian lận, nhưng chỉ có hiệu quả 80% trong việc phân loại chính xác các khiếu nại không lừa đảo (nó nhầm nhãn một phần năm là lừa đảo trên mạng). Nếu hệ thống phân loại một yêu cầu là lừa đảo, xác suất mà nó thực sự là gian lận là gì?
https://www.statistic.com/news/231/192/Conditable-Probability/?showtemplate=true
Cả bạn bè và tôi đều đưa ra cùng một câu trả lời một cách độc lập và nó không phù hợp với giải pháp được công bố.
Giải pháp của chúng tôi:
(.9 * .1) / ((. 9 * .1) + (. 2 * .9)) = 1/3
Giải pháp của họ:
Đây là một vấn đề trong xác suất có điều kiện. (Đây cũng là một vấn đề của Bayes, nhưng áp dụng công thức trong Quy tắc Bayes chỉ giúp làm mờ những gì đang diễn ra.) Hãy xem xét 100 yêu cầu. 10 sẽ là lừa đảo và hệ thống sẽ gắn nhãn chính xác cho 9 trong số đó là lừa đảo. là lừa đảo, nhưng chỉ có 9 người trong số họ, 11%, thực sự là lừa đảo.
Ai đúng