Tại sao độ chính xác và thu hồi được sử dụng trong điểm F1, thay vì độ chính xác và NPV?


7

Trong các vấn đề phân loại nhị phân, có vẻ như điểm F1 thường được sử dụng làm thước đo hiệu suất. Theo như tôi hiểu thì ý tưởng là tìm ra sự đánh đổi tốt nhất giữa độ chính xác và thu hồi. Công thức cho điểm F1 là đối xứng về độ chính xác và thu hồi. Tuy nhiên, (và đó là điều làm phiền tôi) có sự bất cân xứng giữa độ chính xác và thu hồi. Mặc dù thu hồi là một thuộc tính của phân loại độc lập với xác suất trước, độ chính xác là đại lượng phụ thuộc vào xác suất trước.

Bất cứ ai có thể cho tôi biết những gì đặc biệt về sự kết hợp của độ chính xác và thu hồi? Tại sao chúng ta không sử dụng độ chính xác (là giá trị tiên đoán dương ) và giá trị tiên đoán âm ?

Câu trả lời:


4

Điểm F1 có độ chính xác và thu hồi bằng nhau nhưng có những khái quát dễ dàng cho bất kỳ trường hợp nào bạn xem xét thu hồi βlần quan trọng hơn độ chính xác. Xem https://en.wikipedia.org/wiki/F1_score :

Fβ= =(1+β2)precTôiSTôionrecmộttôitôiβ2precTôiSTôion+recmộttôitôi

F1 chỉ là một ý nghĩa hài hòa. Giá trị trung bình đơn giản không hoàn toàn có ý nghĩa bởi vì độ chính xác và thu hồi có cùng tử số (dương thực sự) nhưng mẫu số khác nhau (kiểm tra dương tính, điều kiện dương tính). Vì vậy, chỉ có một ý nghĩa hài hòa có ý nghĩa. Tôi không biết liệu có nhiều lý thuyết hơn thế hay không - nghĩa đơn giản nhất có nghĩa là có ý nghĩa.

Tôi nghĩ rằng tôi hiểu ý chính của bạn, điều mà tôi diễn giải để nói đến thực tế rằng độ chính xác đã "kiểm tra dương tính" trong mẫu số nên khá nhạy cảm với mức độ phân loại đánh dấu dương. Vì lý do này, bạn không thường thấy, ví dụ, các đường cong gợi nhớ chính xác. Bạn thấy các đường cong ROC là các đường cong đặc trưng thu hồi (tỷ lệ dương thực sự so với tỷ lệ dương tính giả).

Điều đó gần với những gì bạn đề xuất nhưng bạn đang đề xuất PPV so với NPV. Chắc chắn điều đó có thể hợp lệ tùy thuộc vào trường hợp sử dụng của bạn, nhưng tôi nghĩ rằng đối số có xu hướng cắt theo cách khác, để nhớ lại tính đặc hiệu thay vào đó, không phải là NPV chính xác.


0

Nếu đó hoàn toàn là một vấn đề phân loại nhị phân (lớp A so với lớp B), thì lợi ích của điểm F chủ yếu là đặc trưng cho hiệu suất so với tập dữ liệu không cân bằng (nhiều trường hợp của một lớp so với lớp khác) và câu hỏi / mối quan tâm của bạn có liên quan hơn. Trang Wikipedia cho các trạng thái điểm F

" Tuy nhiên, lưu ý rằng các biện pháp F không tính đến các tiêu cực thực sự và các biện pháp như hệ số Phi, hệ số tương quan Matthews, Thông tin hoặc kappa của Cohen có thể thích hợp hơn để đánh giá hiệu suất của phân loại nhị phân. "

Nhưng nếu trình phân loại được dự định là một trình phát hiện , thì người ta thường quan tâm đến hiệu suất đối với lớp mục tiêu (Tích cực) hơn là lớp không nhắm mục tiêu (Phủ định). Hơn nữa, mục tiêu thường là mục tiêu được thể hiện dưới mức trong tập dữ liệu. Trong bối cảnh đó, tôi nghĩ sẽ trực quan hơn khi muốn biết phần nào của mục tiêu được phát hiện (gọi lại) và mức độ tin cậy / tin cậy của mỗi phát hiện (độ chính xác). Mặc dù biết máy dò tốt đến mức nào khi không phát hiện ra các mục tiêu không (giá trị dự đoán âm) có thể có giá trị, nhưng đó không phải là một số lượng rất sâu sắc để xử lý khi cố gắng mô tả hiệu suất của trình phát hiện mục tiêu bằng một bộ dữ liệu mất cân bằng.

Nói tóm lại, tham số điều chỉnh điểm F (β) cung cấp một cách trực quan hơn để cân bằng tầm quan trọng của việc phát hiện tất cả các mục tiêu (thu hồi cao) với tầm quan trọng của việc phát hiện với độ tin cậy cao (độ chính xác cao). Cũng lưu ý rằng điểm F có thể được viết theo các lỗi Loại I và Loại II (xem liên kết Wikipedia ở trên).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.