Làm cách nào để chọn số liệu lỗi khi đánh giá bộ phân loại?


15

Tôi đã thấy các số liệu lỗi khác nhau được sử dụng trong các cuộc thi Kaggle: RMS, bình phương trung bình, AUC, trong số các số liệu khác. Nguyên tắc chung khi chọn số liệu lỗi là gì, làm thế nào để bạn biết nên sử dụng số liệu lỗi nào cho một vấn đề nhất định? Có hướng dẫn nào không?

Câu trả lời:


12

Nhóm số liệu lỗi bạn có thể chọn là khác nhau giữa phân loại và hồi quy. Sau này, bạn cố gắng dự đoán một giá trị liên tục và với phân loại, bạn dự đoán các lớp rời rạc như "lành mạnh" hoặc "không lành mạnh". Từ các ví dụ bạn đã đề cập, lỗi bình phương trung bình gốc sẽ được áp dụng cho hồi quy và AUC để phân loại với hai lớp.

Hãy để tôi cung cấp cho bạn một chút chi tiết hơn về phân loại. Bạn đã đề cập đến AUC như một thước đo, đó là khu vực dưới đường cong ROC, thường chỉ được áp dụng cho các vấn đề phân loại nhị phân với hai lớp. Mặc dù, có nhiều cách để xây dựng một đường cong ROC cho hơn hai lớp, nhưng chúng làm mất đi sự đơn giản của đường cong ROC cho hai lớp. Ngoài ra, các đường cong ROC chỉ có thể được xây dựng nếu bộ phân loại lựa chọn đưa ra một số loại điểm liên quan đến từng dự đoán. Ví dụ, hồi quy logistic sẽ cung cấp cho bạn xác suất cho mỗi trong hai lớp. Ngoài các đường cong ROC đơn giản của chúng còn có ưu điểm là chúng không bị ảnh hưởng bởi tỷ lệ giữa các trường hợp được gắn nhãn tích cực và tiêu cực trong bộ dữ liệu của bạn và không buộc bạn phải chọn ngưỡng. Tuy nhiên, không chỉ nên nhìn vào đường cong ROC mà còn các hình ảnh trực quan khác. Tôi khuyên bạn nên xem xét các đường cong thu hồi chính xác và đường cong chi phí. một phép đo lỗi thực sự, tất cả chúng đều có điểm mạnh và điểm yếu.

Văn học tôi thấy hữu ích trong vấn đề này là:

Nếu trình phân loại của bạn không cung cấp một số loại điểm, bạn phải quay lại các biện pháp cơ bản có thể thu được từ ma trận nhầm lẫn có chứa số dương, dương, sai, phủ định đúng và phủ định sai. Các hình ảnh được đề cập ở trên (ROC, thu hồi chính xác, đường chi phí) đều dựa trên các bảng này thu được bằng cách sử dụng một ngưỡng khác nhau của điểm số của bộ phân loại. Biện pháp phổ biến nhất trong trường hợp này có lẽ là Biện pháp F1NN×NN 2×2MộtMột


1
Câu cuối cùng là sai: bảng nhầm lẫn cho N các lớp thường có kích thước N×N. Từ đó bạn có thể rút raN 2×2các bảng cho "class a" so với "not-class-a", nhưng điều đó không quá phổ biến mặc dù đôi khi được thực hiện hoàn toàn (ví dụ: tính toán cụ thể).
cbeleites hỗ trợ Monica

Cảm ơn rất nhiều vì đã chỉ ra sai lầm này, tôi đã sửa nó trong câu trả lời ở trên.
sebp

5

Hãy để tôi thêm một vài suy nghĩ cho câu trả lời đã có sẵn.

  • trên thực tế, hầu hết các phân loại đều có điểm liên tục trung gian, trên đó thường áp dụng một ngưỡng để gán các lớp cứng (dưới t: class a, phía trên: class b) được áp dụng. Thay đổi ngưỡng này mang lại ROC.
  • Nói chung, không nên nén một đường cong như vậy thành một số. xem ví dụ: Trường hợp chống lại ước tính chính xác để so sánh các thuật toán cảm ứng
    Có rất nhiều ROC khác nhau có cùng AUC và tính hữu dụng có thể khác nhau đối với một ứng dụng nhất định.
  • ngược lại: sự lựa chọn ngưỡng có thể được quyết định khá nhiều bởi ứng dụng bạn có.
  • Bạn không cần phải xem hiệu suất phân loại bên ngoài các ranh giới này và nếu bạn chọn một số liệu, ít nhất chỉ nên tóm tắt phạm vi có liên quan của các số liệu khác bị ràng buộc.
  • tùy thuộc vào thiết kế nghiên cứu của bạn, phần tổng thể của các mẫu được phân loại chính xác hoặc sai có thể là một bản tóm tắt phù hợp hay không, và kết luận bạn có thể rút ra từ đó cũng sẽ phụ thuộc vào thiết kế nghiên cứu: Dữ liệu thử nghiệm của bạn có phản ánh xác suất trước đó (mức độ phổ biến) của các lớp học? Đối với dân số mà phân loại của bạn được cho là sẽ được sử dụng? Có phải nó được thu thập một cách phân tầng? Điều này được liên kết chặt chẽ với thực tế là hầu hết người dùng của một bộ phân loại quan tâm nhiều hơn đến các giá trị dự đoán, nhưng độ nhạy và độ đặc hiệu dễ đo lường hơn nhiều.

  • Bạn hỏi về hướng dẫn chung. Một hướng dẫn chung là bạn cần biết

    • bạn cần loại hiệu suất nào (độ nhạy, độ đặc hiệu, giá trị dự đoán, vv trả lời các câu hỏi cụ thể về hành vi của trình phân loại của bạn, xem những gì tôi đã viết ở đây ).
    • Phạm vi làm việc chấp nhận được cho các đặc tính hiệu suất này cho ứng dụng của bạn?.
      Chúng có thể rất khác nhau: bạn có thể sẵn sàng chấp nhận một số tiêu cực sai trong phát hiện thư rác, nhưng đó sẽ không phải là một thiết lập chấp nhận được để chẩn đoán HIV ...

Tôi nghĩ bạn sẽ không thể tìm thấy một số liệu hữu ích trừ khi bạn có thể trả lời những câu hỏi này.

Có một chút giống như không có bữa ăn trưa miễn phí trong xác nhận phân loại.


2

Tỷ lệ lỗi phân loại sai dự kiến ​​là phương pháp tôi đã sử dụng và thấy thường xuyên nhất. AUC của ROC là thước đo của một bộ quy tắc phân loại. Nếu ý tưởng là so sánh một bộ phân loại cụ thể với một bộ phân loại khác thì AUC không phù hợp. Một số dạng lỗi phân loại có ý nghĩa nhất vì nó đại diện trực tiếp nhất cho hiệu suất của quy tắc phân loại.

Nhiều công việc đã đi vào việc tìm kiếm các ước tính tốt về tỷ lệ lỗi phân loại vì sự sai lệch lớn của ước tính tái định cư và phương sai cao của nghỉ phép một lần. Bootstrap và công cụ ước tính trơn tru đã được kết hợp. Xem ví dụ bài báo của Efron trong JASA 1983 về các cải tiến bootstrap qua xác nhận chéo.

Dưới đây là một báo cáo kỹ thuật của Đại học Stanford năm 1995 bởi Efron và Tibshirami tóm tắt các tài liệu bao gồm một số công việc của riêng tôi.


So sánh hiệu suất của hai phân loại trên cùng một tập dữ liệu là một chủ đề khác để tranh luận. Đặc biệt, trong trường hợp của ROC và AUC, có một vài phương pháp để so sánh các đường cong ROC nói chung hoặc các ước tính của AUC. Đó là những thử nghiệm thống kê cơ bản với giả thuyết null cho rằng ROC / AUC không khác nhau. Xác thực chéo so với bootstrap là một chủ đề thú vị khác, gần đây tôi đã thấy một bài báo ( dx.doi.org/10.1016/j.csda.2010.03.004 ) về điều đó. Tôi đoán nếu bạn xem xét tất cả các khía cạnh cùng một lúc, nó có thể trở nên khá đáng sợ.
sebp
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.