TL; DR
Độ chính xác là một quy tắc chấm điểm không đúng. Đừng sử dụng nó.
Phiên bản dài hơn một chút
Trên thực tế, độ chính xác thậm chí không phải là một quy tắc tính điểm. Vì vậy, hỏi liệu nó là (đúng) đúng là một lỗi thể loại. Điều chúng ta có thể nói nhiều nhất là theo các giả định bổ sung , độ chính xác phù hợp với quy tắc tính điểm không chính xác, không liên tục và gây hiểu lầm. (Đừng sử dụng nó.)
Sự nhầm lẫn của bạn
Sự nhầm lẫn của bạn bắt nguồn từ thực tế là mất phân loại sai theo bài báo bạn trích dẫn cũng không phải là một quy tắc tính điểm.
Các chi tiết: quy tắc tính điểm so với đánh giá phân loại
Hãy để chúng tôi sửa chữa thuật ngữ. Chúng tôi đang quan tâm đến một kết quả nhị phân , và chúng tôi có một dự đoán xác suất q = P ( Y = 1 ) ∈ ( 0 , 1 ) . Chúng ta biết rằng P ( Y = 1 ) = η > 0,5 , nhưng mô hình của chúng tôi qy∈{0,1}qˆ=Pˆ(Y=1)∈(0,1)P(Y=1)=η>0.5qˆ có thể hoặc không thể biết điều đó.
Một quy tắc trong khâu dứt điểm là một ánh xạ mà phải mất một dự đoán xác suất q và một kết quả y để thua lỗ,qˆy
s:(qˆ,y)↦s(qˆ,y).
làđúngnếu nó được tối ưu hóa trong sự mong đợi của q = η . ( "Tối ưu hóa" thường có nghĩa là "giảm thiểu", nhưng dấu hiệu một số tác giả lật và cố gắng tối đa hóa một quy tắc trong khâu dứt điểm.) S làđúng đúngnếu nó được tối ưu hóa trong kỳ vọngchỉbởi q = η .sqˆ=ηsqˆ=η
Chúng tôi thường sẽ đánh giá nhiều dự đoán q i và kết quả tương ứng y i và trung bình để ước vọng này.sqˆiyi
Bây giờ, độ chính xác là gì? Độ chính xác không lấy dự đoán xác suất làm đối số. Phải mất một phân loại y ∈ { 0 , 1 }yˆ∈{0,1} và một kết quả:
a:(yˆ,y)↦a(yˆ,y)={1,0,yˆ=yyˆ≠y.
Do đó, độ chính xác không phải là một quy tắc tính điểm . Đó là một đánh giá phân loại. (Đây là một thuật ngữ tôi vừa phát minh ra; đừng đi tìm nó trong tài liệu.)
Bây giờ, tất nhiên chúng ta có thể tham gia một dự đoán xác suất như chúng tôi q và biến nó thành một phân loại y . Nhưng để làm như vậy, chúng ta sẽ cần các giả định bổ sung được đề cập ở trên. Chẳng hạn, việc sử dụng ngưỡng θ và phân loại: rất phổ biến :qˆyˆθ
yˆ(qˆ,θ):={1,0,qˆ≥θqˆ<θ.
Một giá trị ngưỡng rất phổ biến là . Lưu ý rằng nếu chúng tôi sử dụng ngưỡng này và sau đó đánh giá chính xác hơn nhiều dự đoán q i (như trên) và kết quả tương ứng y i , sau đó chúng tôi đến đúng lúc mất phân loại sai theo Buja et al. Do đó, mất phân loại sai cũng không phải là quy tắc tính điểm, mà là đánh giá phân loại.θ=0.5qˆiyi
Nếu chúng ta sử dụng thuật toán phân loại như ở trên, chúng ta có thể biến đánh giá phân loại thành quy tắc tính điểm. Vấn đề là chúng ta cần các giả định bổ sung của bộ phân loại. Và đó chính xác hoặc phân loại sai tổn thất hoặc bất cứ điều gì đánh giá phân loại khác mà chúng tôi lựa chọn sau đó có thể phụ thuộc ít hơn vào các dự đoán xác suất q và nhiều hơn nữa trên con đường chúng ta hướng q vào một phân loại y = y ( q , θ ) . Vì vậy, tối ưu hóa việc đánh giá phân loại có thể đuổi theo sau một cá trích đỏ nếu chúng ta thực sự quan tâm trong việc đánh giá q .qˆqˆyˆ=yˆ(qˆ,θ)qˆ
qˆ=ηθ=0.5qˆ∈(0,1)
yˆqˆ
qˆ≥θθ=0.5qˆ=0.99qˆ≥θqˆη
θ=0.2y=1y=0qˆqˆ=0.25qˆ≥θ
Do đó, mất độ chính xác hoặc phân loại sai có thể gây hiểu nhầm.
Ngoài ra, mất độ chính xác và phân loại sai là không phù hợp theo các giả định bổ sung trong các tình huống phức tạp hơn mà kết quả không phải là iid. Frank Harrell, trong bài đăng trên blog của mình Thiệt hại do phân loại chính xác và các quy tắc chấm điểm không chính xác không liên tục khác trích dẫn một ví dụ từ một trong những cuốn sách của anh ấy khi sử dụng chính xác hoặc mất phân loại sai sẽ dẫn đến một mô hình sai chính xác, vì chúng không được tối ưu hóa bởi mô hình dự đoán chính xác. xác suất.
θ
Thông tin thêm có thể được tìm thấy tại Tại sao độ chính xác không phải là biện pháp tốt nhất để đánh giá các mô hình phân loại? .
Điểm mấu chốt
Đừng sử dụng độ chính xác. Cũng không phân loại sai.
Các nitpick: "nghiêm ngặt" so với "nghiêm ngặt"
Chúng ta có nên nói về các quy tắc chấm điểm đúng "nghiêm ngặt" hay về các quy tắc chấm điểm đúng "nghiêm ngặt" không? "Nghiêm" sửa đổi "đúng", không phải "quy tắc cho điểm". . Như là phổ biến hơn trong các tài liệu, ví dụ, các bài báo của Tilmann Gneiting.