Độ chính xác có phải là quy tắc chấm điểm không phù hợp trong cài đặt phân loại nhị phân không?


13

Gần đây tôi đã học về các quy tắc chấm điểm thích hợp cho các phân loại xác suất. Một số chủ đề trên trang web này đã đưa ra quan điểm nhấn mạnh rằng độ chính xác là quy tắc chấm điểm không phù hợp và không nên được sử dụng để đánh giá chất lượng dự đoán được tạo bởi mô hình xác suất như hồi quy logistic.

Tuy nhiên, khá nhiều bài báo học thuật tôi đã đọc đã bị mất phân loại sai như một ví dụ về quy tắc chấm điểm thích hợp (không nghiêm ngặt) trong cài đặt phân loại nhị phân. Giải thích rõ ràng nhất mà tôi có thể tìm thấy là trong bài viết này , ở cuối trang 7. Theo sự hiểu biết tốt nhất của tôi, giảm thiểu tổn thất phân loại sai tương đương với tối đa hóa độ chính xác và các phương trình trong bài báo có ý nghĩa bằng trực giác.

Ví dụ: sử dụng ký hiệu của bài báo, nếu xác suất có điều kiện thực sự (được đưa ra một số vectơ đặc trưng x ) của lớp quan tâm là η = 0,7, mọi dự báo q > 0,5 sẽ có tổn thất dự kiến R (| q ) = 0.7 (0) + 0,3 (1) = 0.3, và bất kỳ q 0,5 sẽ có một sự mất mát dự kiến là 0,7. Do đó, hàm mất mát sẽ được giảm thiểu ở mức q = = 0,7 và do đó thích hợp; việc khái quát hóa cho toàn bộ phạm vi xác suất và dự báo có điều kiện thực sự dường như đủ đơn giản từ đó.

Giả sử các tính toán và tuyên bố trên là chính xác, những hạn chế của mức tối thiểu không duy nhất và tất cả các dự đoán trên 0,5 chia sẻ cùng một tổn thất dự kiến ​​tối thiểu là rõ ràng. Tôi vẫn không thấy lý do nào để sử dụng độ chính xác so với các lựa chọn thay thế truyền thống như điểm ghi nhật ký, điểm Brier, v.v. Tuy nhiên, có đúng không khi nói rằng độ chính xác là quy tắc chấm điểm thích hợp khi đánh giá các mô hình xác suất trong cài đặt nhị phân hoặc tôi đang thực hiện sai lầm - hoặc theo cách hiểu của tôi về mất phân loại sai, hoặc đánh đồng nó với độ chính xác?

Câu trả lời:


15

TL; DR

Độ chính xác là một quy tắc chấm điểm không đúng. Đừng sử dụng nó.

Phiên bản dài hơn một chút

Trên thực tế, độ chính xác thậm chí không phải là một quy tắc tính điểm. Vì vậy, hỏi liệu nó là (đúng) đúng là một lỗi thể loại. Điều chúng ta có thể nói nhiều nhất là theo các giả định bổ sung , độ chính xác phù hợp với quy tắc tính điểm không chính xác, không liên tục và gây hiểu lầm. (Đừng sử dụng nó.)

Sự nhầm lẫn của bạn

Sự nhầm lẫn của bạn bắt nguồn từ thực tế là mất phân loại sai theo bài báo bạn trích dẫn cũng không phải là một quy tắc tính điểm.

Các chi tiết: quy tắc tính điểm so với đánh giá phân loại

Hãy để chúng tôi sửa chữa thuật ngữ. Chúng tôi đang quan tâm đến một kết quả nhị phân , và chúng tôi có một dự đoán xác suất q = P ( Y = 1 ) ( 0 , 1 ) . Chúng ta biết rằng P ( Y = 1 ) = η > 0,5 , nhưng mô hình của chúng tôi qy{0,1}q^=P^(Y=1)(0,1)P(Y=1)=η>0.5q^ có thể hoặc không thể biết điều đó.

Một quy tắc trong khâu dứt điểm là một ánh xạ mà phải mất một dự đoán xác suất q và một kết quả y để thua lỗ,q^y

s:(q^,y)s(q^,y).

đúngnếu nó được tối ưu hóa trong sự mong đợi của q = η . ( "Tối ưu hóa" thường có nghĩa là "giảm thiểu", nhưng dấu hiệu một số tác giả lật và cố gắng tối đa hóa một quy tắc trong khâu dứt điểm.) Sđúng đúngnếu nó được tối ưu hóa trong kỳ vọngchỉbởi q = η .sq^=ηsq^=η

Chúng tôi thường sẽ đánh giá nhiều dự đoán q i và kết quả tương ứng y i và trung bình để ước vọng này.sq^iyi

Bây giờ, độ chính xác là gì? Độ chính xác không lấy dự đoán xác suất làm đối số. Phải mất một phân loại y{ 0 , 1 }y^{0,1} và một kết quả:

a:(y^,y)a(y^,y)={1,y^=y0,y^y.

Do đó, độ chính xác không phải là một quy tắc tính điểm . Đó là một đánh giá phân loại. (Đây là một thuật ngữ tôi vừa phát minh ra; đừng đi tìm nó trong tài liệu.)

Bây giờ, tất nhiên chúng ta có thể tham gia một dự đoán xác suất như chúng tôi q và biến nó thành một phân loại y . Nhưng để làm như vậy, chúng ta sẽ cần các giả định bổ sung được đề cập ở trên. Chẳng hạn, việc sử dụng ngưỡng θ và phân loại: rất phổ biến :q^y^θ

y^(q^,θ):={1,q^θ0,q^<θ.

Một giá trị ngưỡng rất phổ biến là . Lưu ý rằng nếu chúng tôi sử dụng ngưỡng này và sau đó đánh giá chính xác hơn nhiều dự đoán q i (như trên) và kết quả tương ứng y i , sau đó chúng tôi đến đúng lúc mất phân loại sai theo Buja et al. Do đó, mất phân loại sai cũng không phải là quy tắc tính điểm, mà là đánh giá phân loại.θ=0.5q^iyi

Nếu chúng ta sử dụng thuật toán phân loại như ở trên, chúng ta có thể biến đánh giá phân loại thành quy tắc tính điểm. Vấn đề là chúng ta cần các giả định bổ sung của bộ phân loại. Và đó chính xác hoặc phân loại sai tổn thất hoặc bất cứ điều gì đánh giá phân loại khác mà chúng tôi lựa chọn sau đó có thể phụ thuộc ít hơn vào các dự đoán xác suất q và nhiều hơn nữa trên con đường chúng ta hướng q vào một phân loại y = y ( q , θ ) . Vì vậy, tối ưu hóa việc đánh giá phân loại có thể đuổi theo sau một cá trích đỏ nếu chúng ta thực sự quan tâm trong việc đánh giá q .q^q^y^=y^(q^,θ)q^

q^=ηθ=0.5q^(0,1)

y^q^

q^θθ=0.5q^=0.99q^θq^η

θ=0.2y=1y=0q^q^=0.25q^θ

Do đó, mất độ chính xác hoặc phân loại sai có thể gây hiểu nhầm.

Ngoài ra, mất độ chính xác và phân loại sai không phù hợp theo các giả định bổ sung trong các tình huống phức tạp hơn mà kết quả không phải là iid. Frank Harrell, trong bài đăng trên blog của mình Thiệt hại do phân loại chính xác và các quy tắc chấm điểm không chính xác không liên tục khác trích dẫn một ví dụ từ một trong những cuốn sách của anh ấy khi sử dụng chính xác hoặc mất phân loại sai sẽ dẫn đến một mô hình sai chính xác, vì chúng không được tối ưu hóa bởi mô hình dự đoán chính xác. xác suất.

θ

Thông tin thêm có thể được tìm thấy tại Tại sao độ chính xác không phải là biện pháp tốt nhất để đánh giá các mô hình phân loại? .

Điểm mấu chốt

Đừng sử dụng độ chính xác. Cũng không phân loại sai.

Các nitpick: "nghiêm ngặt" so với "nghiêm ngặt"

Chúng ta có nên nói về các quy tắc chấm điểm đúng "nghiêm ngặt" hay về các quy tắc chấm điểm đúng "nghiêm ngặt" không? "Nghiêm" sửa đổi "đúng", không phải "quy tắc cho điểm". . Như là phổ biến hơn trong các tài liệu, ví dụ, các bài báo của Tilmann Gneiting.


Có nhiều khía cạnh trong bài đăng của bạn mà tôi không theo dõi (hoặc cảm thấy không liên quan đến câu hỏi tôi đã hỏi), nhưng hãy bắt đầu với "mất phân loại sai theo bài báo bạn trích dẫn không phải là quy tắc chấm điểm." Công thức được đưa ra rất rõ ràng trong bài báo: L1 (1-q) = 1 [q <= 0,5] (bỏ qua định dạng kém). Đối với tất cả các mục đích thực tế, chức năng bước trực tiếp ánh xạ bất kỳ dự đoán xác suất nào và kết quả liên quan của nó là mất 0 hoặc 1. Hơn nữa, 0,5 chỉ là một tham số kiểm soát nơi xảy ra bước; Tôi không thấy "giả định" liên quan. Làm thế nào đây không phải là một quy tắc tính điểm?
Zyzzva

1
q

1
Đối với các bình luận liên quan, tôi xin lỗi nếu nó đi sai cách. Tôi đã cố gắng tập trung vào phạm vi của câu hỏi để cụ thể về việc đúng so với không đúng, không liên tục / gây hiểu lầm / v.v. Tôi đã làm quen với các liên kết bạn cung cấp và không có vấn đề gì với ý kiến ​​của bạn về chi phí phân loại sai hoặc dòng dưới cùng. Tôi chỉ đang tìm kiếm một lời giải thích chặt chẽ hơn về tuyên bố "độ chính xác là không phù hợp", đặc biệt là khi bài viết này gợi ý khác cho trường hợp sử dụng chung của kết quả nhị phân. Tôi đánh giá cao bạn dành thời gian để thảo luận với tôi và chia sẻ suy nghĩ chi tiết của bạn.
Zyzzva

1
Sau khi suy nghĩ sâu hơn, tôi nghĩ rằng tôi đã hiểu rõ hơn về điểm bạn đang thực hiện. Nếu chúng ta xem xét chức năng bước tương tự với bước 0,6 (tương ứng với phân loại ở ngưỡng 0,6), thì quy tắc tính điểm là không chính xác, vì tổn thất dự kiến ​​sẽ không còn được giảm thiểu bởi dự đoán q = n cho n trong phạm vi [ 0,5, 0,6]. Tổng quát hơn, nó sẽ không phù hợp ở mọi ngưỡng khác 0,5, và trong thực tế, chúng tôi muốn sử dụng các ngưỡng khác do chi phí không đối xứng của phân loại sai, như bạn đã chỉ ra.
Zyzzva

1
Tôi đồng tình rằng độ chính xác rõ ràng là một thước đo tồi để đánh giá xác suất, ngay cả khi ngưỡng 0,5 là hợp lý. Tôi đã nói nhiều như vậy ở phần cuối của bài viết gốc mà tôi đã viết, nhưng điều này giúp làm sáng tỏ các chi tiết cụ thể mà tôi gặp rắc rối - cụ thể là, điều hòa một cái gì đó tôi hiểu nhầm là cho thấy độ chính xác là phù hợp với kết quả nhị phân (khi nó chỉ thực tế áp dụng cho trường hợp rất cụ thể của ngưỡng 0,5) với tuyên bố dường như đen trắng "chính xác là không chính xác" mà tôi đã thấy rất nhiều. Cảm ơn vì đã giúp và kiến ​​nhẫn.
Zyzzva
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.