Giả sử tôi đang xây dựng một phân loại hồi quy logistic dự đoán xem ai đó đã kết hôn hay độc thân. (1 = đã kết hôn, 0 = độc thân) Tôi muốn chọn một điểm trên đường cong gợi nhớ chính xác mang lại cho tôi độ chính xác ít nhất 75%, vì vậy tôi muốn chọn ngưỡng và , để:
- Nếu đầu ra của trình phân loại của tôi lớn hơn , thì tôi xuất "kết hôn".
- Nếu đầu ra dưới , tôi xuất "đơn".
- Nếu đầu ra ở giữa, tôi xuất "Tôi không biết".
Một vài câu hỏi:
- Tôi nghĩ theo định nghĩa chuẩn về độ chính xác, độ chính xác sẽ đo lường độ chính xác của riêng lớp kết hôn (nghĩa là độ chính xác = # lần tôi dự đoán chính xác kết hôn / tổng số lần tôi dự đoán kết hôn). Tuy nhiên, điều tôi thực sự muốn làm là đo lường độ chính xác tổng thể (nghĩa là tổng số lần tôi dự đoán chính xác kết hôn hoặc độc thân / tổng số lần tôi dự đoán kết hôn hoặc độc thân). Đây có phải là một điều tốt để làm? Nếu không, tôi nên làm gì?
- Có cách nào để tính đường cong chính xác / thu hồi "tổng thể" này trong R (ví dụ: sử dụng gói ROCR hoặc một số thư viện khác) không? Tôi hiện đang sử dụng gói ROCR, nhưng dường như nó chỉ cung cấp cho tôi độ chính xác / thu hồi một lớp một lần.