Statistics.com đã công bố câu trả lời sai?


28

Statistics.com đã công bố một vấn đề trong tuần: Tỷ lệ gian lận bảo hiểm dân cư là 10% (một trong mười yêu cầu là gian lận). Một nhà tư vấn đã đề xuất một hệ thống máy học để xem xét các khiếu nại và phân loại chúng là gian lận hoặc không gian lận. Hệ thống này có hiệu quả 90% trong việc phát hiện các khiếu nại gian lận, nhưng chỉ có hiệu quả 80% trong việc phân loại chính xác các khiếu nại không lừa đảo (nó nhầm nhãn một phần năm là lừa đảo trên mạng). Nếu hệ thống phân loại một yêu cầu là lừa đảo, xác suất mà nó thực sự là gian lận là gì?

https://www.statistic.com/news/231/192/Conditable-Probability/?showtemplate=true

Cả bạn bè và tôi đều đưa ra cùng một câu trả lời một cách độc lập và nó không phù hợp với giải pháp được công bố.

Giải pháp của chúng tôi:

(.9 * .1) / ((. 9 * .1) + (. 2 * .9)) = 1/3

Giải pháp của họ:

Đây là một vấn đề trong xác suất có điều kiện. (Đây cũng là một vấn đề của Bayes, nhưng áp dụng công thức trong Quy tắc Bayes chỉ giúp làm mờ những gì đang diễn ra.) Hãy xem xét 100 yêu cầu. 10 sẽ là lừa đảo và hệ thống sẽ gắn nhãn chính xác cho 9 trong số đó là lừa đảo. là lừa đảo, nhưng chỉ có 9 người trong số họ, 11%, thực sự là lừa đảo.

Ai đúng


4
có vẻ như họ đã sửa giải pháp trên trang web của họ để phù hợp với những gì bạn đã tính toán
nope

2
@nope, lặng lẽ sửa câu trả lời. lén lút
Aksakal

Thông tin bên lề: trong việc ra quyết định hành vi, vấn đề này thường được gọi là "vấn đề chụp quang tuyến vú", vì cách trình bày thông thường của nó là về khả năng bệnh nhân bị ung thư được chụp quang tuyến vú dương tính.
Kodiologist 18/12/18

"Tin tốt là, hệ thống của chúng tôi phân loại 90% gian lận là lừa đảo. Tin xấu là, nó phân loại 80% không lừa đảo là lừa đảo." Lưu ý 11% mà họ tính toán chỉ cao hơn một chút so với tỷ lệ cơ sở 10%. Một mô hình học máy trong đó tỷ lệ gian lận trong các trường hợp được gắn cờ chỉ cao hơn 10% so với tỷ lệ cơ sở là khá khủng khiếp.
Tích lũy

Điều này được gọi là nghịch lý tích cực sai
BlueRaja - Daniel Pflughoeft

Câu trả lời:


41

Tôi tin rằng bạn và đồng nghiệp của bạn là chính xác. Statistics.com có ​​dòng suy nghĩ chính xác, nhưng mắc một lỗi đơn giản. Trong số 90 khiếu nại "OK", chúng tôi hy vọng 20% ​​trong số đó được phân loại không chính xác là gian lận, không phải 80%. 20% của 90 là 18, dẫn đến 9 khiếu nại được xác định chính xác và 18 khiếu nại không chính xác, với tỷ lệ 1/3, chính xác là những gì quy tắc của Bayes mang lại.


11

Bạn nói đúng. Giải pháp mà trang web đăng tải dựa trên việc đọc sai vấn đề trong đó 80% các khiếu nại không có trách nhiệm được phân loại là lừa đảo thay vì 20% cho trước.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.