Có phương pháp tiêu chuẩn nào để xác định điểm vận hành "tối ưu" trên đường cong thu hồi chính xác không? (nghĩa là xác định điểm trên đường cong mang lại sự đánh đổi tốt giữa độ chính xác và thu hồi)
Cảm ơn
Có phương pháp tiêu chuẩn nào để xác định điểm vận hành "tối ưu" trên đường cong thu hồi chính xác không? (nghĩa là xác định điểm trên đường cong mang lại sự đánh đổi tốt giữa độ chính xác và thu hồi)
Cảm ơn
Câu trả lời:
Định nghĩa về "tối ưu" tất nhiên sẽ phụ thuộc vào các mục tiêu cụ thể của bạn, nhưng dưới đây là một vài phương pháp tương đối "chuẩn":
Điểm tỷ lệ lỗi bằng (EER) điểm: điểm chính xác bằng thu hồi. Điều này cảm thấy với một số người như một điểm hoạt động "tự nhiên".
Một phiên bản tinh tế và nguyên tắc hơn ở trên là để xác định chi phí của các loại lỗi khác nhau và tối ưu hóa chi phí đó. Giả sử phân loại sai một mặt hàng (một lỗi chính xác) đắt gấp đôi so với thiếu một mặt hàng hoàn toàn (lỗi trong việc thu hồi). Sau đó, điểm hoạt động tốt nhất là trong đó (1 - gọi lại) = 2 * (1 - độ chính xác).
Trong một số vấn đề, mọi người có tỷ lệ chấp nhận tối thiểu tự nhiên là chính xác hoặc thu hồi. Giả sử bạn biết rằng nếu hơn 20% dữ liệu được truy xuất không chính xác, người dùng sẽ ngừng sử dụng ứng dụng của bạn. Sau đó, điều tự nhiên là đặt độ chính xác đến 80% (hoặc thấp hơn một chút) và chấp nhận bất kỳ thu hồi nào bạn có tại thời điểm đó.
Theo dõi các gạch đầu dòng thứ hai và thứ ba của SheldonCooper: Lựa chọn lý tưởng là nhờ người khác đưa ra lựa chọn, dưới dạng ngưỡng (điểm 3) hoặc đánh đổi lợi ích chi phí (điểm 2). Và có lẽ cách tốt nhất để cung cấp cho họ sự lựa chọn là với đường cong ROC .
Tôi không chắc chắn mức độ "chuẩn" này như thế nào, nhưng có một cách là chọn điểm gần nhất với (1, 1) - tức là thu hồi 100% và độ chính xác 100%. Đó sẽ là sự cân bằng tối ưu giữa hai biện pháp. Điều này là giả sử bạn không coi trọng độ chính xác so với thu hồi hoặc ngược lại.