Áp dụng câu trả lời của Erik cho Michael's :
Bạn có thể thực hiện cùng một kiểu suy nghĩ mà Erik đề cập đến khi chọn thước đo hiệu suất.
Tôi thấy hữu ích khi tham khảo các biện pháp khác nhau bằng các câu hỏi mà họ trả lời (ở đây bằng ngôn ngữ chẩn đoán y khoa mà tôi quen thuộc nhất - nhưng có lẽ bạn chỉ có thể thay thế bệnh nhân bằng văn bản và bệnh bằng thư rác ;-)):
Độ nhạy: cho bệnh nhân thực sự mắc bệnh, khả năng phân loại nhận ra điều đó như thế nào?
Tính đặc hiệu: do bệnh nhân thực sự không mắc bệnh, khả năng phân loại nhận ra điều đó như thế nào?
Giá trị tiên đoán tích cực: đưa ra phân loại tuyên bố bệnh nhân bị bệnh, khả năng bệnh nhân thực sự mắc bệnh như thế nào?
Giá trị tiên đoán tiêu cực: đưa ra phân loại tuyên bố bệnh nhân không bị bệnh, bệnh nhân thực sự không mắc bệnh như thế nào?
Như bạn thấy, các giá trị tiên đoán là điều mà các bác sĩ và bệnh nhân thực sự quan tâm. Tuy nhiên, hầu hết mọi người đều mô tả đặc điểm phân loại của mình bằng độ nhạy và độ đặc hiệu. Lý do là các giá trị tiên đoán cần phải tính đến tỷ lệ lưu hành của bệnh và điều đó có thể thay đổi lớn (thứ tự cường độ!) Cho các loại bệnh nhân khác nhau.
Thêm về chủ đề cho câu hỏi của bạn:
Tôi cá là bạn đúng khi lo lắng.
Lấy cả hai kịch bản của Erik làm ví dụ:
Dưới đây là các mẫu thử nghiệm độc lập:
> binom.test (x = 810, n = 1000, p = 0.8)
Exact binomial test
data: 810 and 1000
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8
95 percent confidence interval:
0.7842863 0.8338735
sample estimates:
probability of success
0.81
(lưu ý rằng thử nghiệm này là hai mặt, giả sử hai phân loại sẽ được công bố ngay cả khi kết quả ngược lại ...)
Đây là tình huống tốt nhất có thể xảy ra: thử nghiệm được ghép nối và trình phân loại mới phù hợp với tất cả các mẫu, mẫu cũ là đúng, cộng thêm 10:
> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
newclassif
oldclassif correct wrong
correct 800 0
wrong 10 190
> mcnemar.test (oldclassif, newclassif)
McNemar's Chi-squared test with continuity correction
data: oldclassif and newclassif
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427
(giá trị p nằm dưới 0,05 ma thuật miễn là không quá 10 mẫu trong số 1000 được dự đoán khác nhau bởi hai phân loại).
Ngay cả khi giá trị p là câu trả lời đúng cho câu hỏi sai, vẫn có dấu hiệu cho thấy đó là một nơi chật hẹp.
Tuy nhiên, có tính đến thực tiễn khoa học thông thường, tức là một số tính năng mới chưa được biết đến (chưa được công bố) đã được thử nghiệm và chỉ có tính năng hoạt động tốt hơn một chút được công bố, nơi này thậm chí còn chặt chẽ hơn. Và sau đó, trình phân loại 80% có thể chỉ là sự kế thừa của một số phân loại 79% ...
Nếu bạn thích đọc tiếng Đức, có một số cuốn sách thực sự hay của Beck-Bornhold và Dubben. Nếu tôi nhớ chính xác, Mit một Wahrscheinlichkeit grenzender Sicherheit có một cuộc thảo luận rất hay về những vấn đề này. (Tôi không biết có phiên bản tiếng Anh hay không, bản dịch theo nghĩa đen của tiêu đề là "Với sự chắc chắn giáp với xác suất")