Nhóm số liệu lỗi bạn có thể chọn là khác nhau giữa phân loại và hồi quy. Sau này, bạn cố gắng dự đoán một giá trị liên tục và với phân loại, bạn dự đoán các lớp rời rạc như "lành mạnh" hoặc "không lành mạnh". Từ các ví dụ bạn đã đề cập, lỗi bình phương trung bình gốc sẽ được áp dụng cho hồi quy và AUC để phân loại với hai lớp.
Hãy để tôi cung cấp cho bạn một chút chi tiết hơn về phân loại. Bạn đã đề cập đến AUC như một thước đo, đó là khu vực dưới đường cong ROC, thường chỉ được áp dụng cho các vấn đề phân loại nhị phân với hai lớp. Mặc dù, có nhiều cách để xây dựng một đường cong ROC cho hơn hai lớp, nhưng chúng làm mất đi sự đơn giản của đường cong ROC cho hai lớp. Ngoài ra, các đường cong ROC chỉ có thể được xây dựng nếu bộ phân loại lựa chọn đưa ra một số loại điểm liên quan đến từng dự đoán. Ví dụ, hồi quy logistic sẽ cung cấp cho bạn xác suất cho mỗi trong hai lớp. Ngoài các đường cong ROC đơn giản của chúng còn có ưu điểm là chúng không bị ảnh hưởng bởi tỷ lệ giữa các trường hợp được gắn nhãn tích cực và tiêu cực trong bộ dữ liệu của bạn và không buộc bạn phải chọn ngưỡng. Tuy nhiên, không chỉ nên nhìn vào đường cong ROC mà còn các hình ảnh trực quan khác. Tôi khuyên bạn nên xem xét các đường cong thu hồi chính xác và đường cong chi phí. một phép đo lỗi thực sự, tất cả chúng đều có điểm mạnh và điểm yếu.
Văn học tôi thấy hữu ích trong vấn đề này là:
- Fawcett, T. (2006). Giới thiệu về phân tích ROC . Thư nhận dạng mẫu, 27 (8), 861 Lỗi874.
- Drumond, C., & Holte, R. (2006). Đường cong chi phí: Một phương pháp cải tiến để trực quan hóa hiệu suất phân loại . Học máy, 65 (1), 95 Hàng130
- Parker, C. (2011). Phân tích các biện pháp hiệu suất cho phân loại nhị phân . Hội nghị quốc tế về khai thác dữ liệu lần thứ 11 năm 2011 (trang 517, 526)
- Davis, J., & Goadrich, M. (2006). Mối quan hệ giữa các đường cong Precision-Recall và ROC . Kỷ yếu hội thảo quốc tế lần thứ 23 về Học máy (trang 233 Cách240). New York, NY, Hoa Kỳ: ACM
Nếu trình phân loại của bạn không cung cấp một số loại điểm, bạn phải quay lại các biện pháp cơ bản có thể thu được từ ma trận nhầm lẫn có chứa số dương, dương, sai, phủ định đúng và phủ định sai. Các hình ảnh được đề cập ở trên (ROC, thu hồi chính xác, đường chi phí) đều dựa trên các bảng này thu được bằng cách sử dụng một ngưỡng khác nhau của điểm số của bộ phân loại. Biện pháp phổ biến nhất trong trường hợp này có lẽ là Biện pháp F1NN× NN 2 × 2MộtMột