Tại sao không phải là tổng của Chính xác và Nhớ lại một thước đo xứng đáng?


12

Cách tốt nhất để giải thích tại sao là gì là không một biện pháp tốt, nói, so với F1?Precision+Recall


Nó có nghĩa là gì? Làm thế nào bạn sẽ giải thích nó? Nó thực sự sẽ nói gì với bạn?
Matthew Drury

1
Bạn nên thay đổi tiêu đề bằng cách thay thế "Chính xác + Thu hồi" bằng "tổng của Chính xác và Thu hồi" để làm cho nó rõ ràng hơn những gì bạn muốn.
g3o2

@ g3o2 chúng ta đang nói ngữ pháp ở đây, hay tôi đang thiếu một cái gì đó lớn hơn?
matt

Không thực sự, chỉ cần lưu ý rằng nó cũng có thể được đọc Chính xác & Nhớ lại, đặc biệt khi chỉ đọc tiêu đề.
g3o2

Câu trả lời:


18

Không phải là là một biện pháp tồi cho mọi người, chỉ có điều, chính nó, con số kết quả không đại diện cho bất cứ điều gì có ý nghĩa. Bạn đang đi đúng hướng mặc dù ... những gì chúng tôi đang tìm kiếm là sự kết hợp, trung bình của hai biện pháp hiệu suất vì chúng tôi không muốn phải lựa chọn giữa chúng.Precision+Recall

Nhớ lại rằng độ chính xác và thu hồi được định nghĩa là:

thu hồi tích cực =Tích cực thực sự

Precision=True PositivePredicted Positive
Recall=True PositiveActual Positive

Vì cả hai đều có mẫu số khác nhau, nên việc kết hợp chúng lại với nhau sẽ dẫn đến kết quả như sau: ... không đặc biệt hữu ích.

True Positive(Predicted Positive+Actual Positive)Predicted Positive×Actual Positive

Hãy quay lại để thêm chúng lại với nhau và thực hiện một điều chỉnh: nhân chúng với sao cho chúng ở lại theo đúng tỷ lệ,[0-1]. Đây là lấy mức trung bình quen thuộc của họ.12[01]

12×(True PositivePredicted Positive+True PositiveActual Positive)

Vì vậy, chúng tôi có hai đại lượng, có cùng tử số, nhưng mẫu số khác nhau và chúng tôi muốn lấy trung bình của chúng. Chúng ta làm gì? Vâng, chúng tôi có thể lật chúng lên, đưa nghịch đảo của chúng. Sau đó, bạn có thể thêm chúng lại với nhau. Vì vậy, họ là "bên phải lên", bạn lại nghịch đảo.

Quá trình đảo ngược này, và sau đó đảo ngược lại biến một nghĩa "thông thường" thành một ý nghĩa hài hòa. Nó chỉ xảy ra rằng ý nghĩa hài hòa của độ chính xác và thu hồi thống kê F1. Giá trị trung bình hài thường được sử dụng thay cho trung bình số học tiêu chuẩn khi xử lý tỷ lệ, như chúng ta đang làm ở đây.

Cuối cùng, thống kê F1 chỉ là mức trung bình của độ chính xác và thu hồi và bạn sử dụng nó vì bạn không muốn chọn cái này hay cái kia để đánh giá hiệu suất của mô hình.


2
Thực sự cảm ơn rất nhiều vì đã vui lòng phát triển ý nghĩa hài hòa từ ý nghĩa đại số! nhưng điều có lẽ không phù hợp với tôi, là phần bạn nói "không đặc biệt hữu ích". Trong đó, tôi đã bình luận dưới đây về hai câu trả lời khác. Chỉ trong trường hợp bạn tiến thêm một bước nữa .. Ví dụ, hãy tưởng tượng tôi muốn chọn trình phân loại tốt nhất trong số một nhóm các trình phân loại được kiểm tra trên cùng một tập dữ liệu.
matt

@matt, sử dụng bất kỳ biện pháp kết hợp nào sẽ đưa lựa chọn mô hình của bạn đến một điểm nhất định nhưng không vượt quá. Hai mô hình có cùng giá trị F1 có thể hiển thị hoàn toàn trái ngược với các giá trị Recall và Precision. Do đó, đối với F1 là như nhau, bạn sẽ phải chọn giữa Recall và Precision.
g3o2

4

Câu trả lời ngắn gọn là: bạn sẽ không mong đợi việc tính tổng hai phần trăm có hai mẫu số khác nhau có ý nghĩa đặc biệt nào. Do đó, cách tiếp cận để thực hiện một biện pháp trung bình như F1, F2 hoặc F0.5. Cái sau giữ lại ít nhất là tài sản của một tỷ lệ phần trăm. Ý nghĩa của chúng là gì?

Vẻ đẹp của Precision và Recall như các biện pháp riêng biệt là sự dễ dàng giải thích của họ và thực tế là họ có thể dễ dàng đối mặt với các mục tiêu kinh doanh của mô hình. Độ chính xác đo tỷ lệ phần trăm trong true positivessố các trường hợp được phân loại positivetheo mô hình. Nhớ lại đo lường tỷ lệ phần trăm true positivesđược tìm thấy bởi mô hình trong số tất cả các truetrường hợp. Đối với nhiều vấn đề, bạn sẽ phải chọn giữa tối ưu hóa Chính xác hoặc Thu hồi.

Bất kỳ biện pháp trung bình nào cũng làm mất đi sự giải thích ở trên và nắm rõ biện pháp nào bạn thích nhất. F1 có nghĩa là bạn không biết bạn thích Recall hay Precision hay bạn gắn trọng lượng tương đương với mỗi cái. Nếu bạn coi Recall quan trọng hơn Độ chính xác, thì bạn cũng nên phân bổ trọng số cao hơn cho nó trong phép tính trung bình (ví dụ F2) và ngược lại (ví dụ F0.5).


3

Thêm hai là một biện pháp xấu. Bạn sẽ nhận được ít nhất 1 điểm nếu bạn đánh dấu mọi thứ là tích cực, vì theo định nghĩa đó là thu hồi 100%. Và bạn sẽ có được một chút chính xác trên đó. Giá trị trung bình hình học được sử dụng trong F1 nhấn mạnh vào liên kết yếu, vì nó là cấp số nhân; ít nhất bạn phải làm tốt với cả độ chính xác và thu hồi để có được điểm F1 khá.


Trên thực tế, đây là điểm nhấn chính xác của liên kết yếu, điều mà tôi thấy không cần thiết khi Chính xác và Thu hồi đều hợp lý hơn là khó chịu. Khi cả hai đều không sắc nét, tôi không chắc chắn tôi thấy giá trị gia tăng của một số liệu nhấn mạnh sự tương đồng giữa chúng hoặc đặt hình phạt khác nhau bởi kích thước của sự khác biệt của chúng. Tài sản chính xác này một phần thúc đẩy câu hỏi ban đầu của tôi ở đây.
matt

Âm thanh như làm thêm cho tôi. Nếu bạn đánh giá một điểm phần trăm thu hồi chỉ bằng một độ chính xác, thì tôi đoán rằng biện pháp của bạn là cách sử dụng. Nhưng tôi không thể hình dung bạn sẽ làm. Nhớ lại có lẽ sẽ chiếm ưu thế, ngay cả khi bạn giảm phạm vi. Bạn có thể mở rộng quy mô thu hồi để trở thành táo với độ chính xác, nhưng điều đó một lần nữa làm việc nhiều hơn và làm cho việc giải thích ít rõ ràng hơn.
Ben Ogorek

1
Không chắc chắn tại sao giả định thu hồi lại chiếm ưu thế (?) Nhưng việc thu hồi tỷ lệ thành táo với độ chính xác có thể là một cuộc thảo luận thú vị liên quan ở đây hoặc ở nơi khác - một con trỏ đi đúng hướng có thể là một điều tốt đẹp để có được :) và nếu không thì cảm ơn một lần nữa
matt

3

Điểm F1 đặc biệt có giá trị trong trường hợp xác suất không đối xứng nghiêm trọng.

Hãy xem xét ví dụ sau: chúng tôi kiểm tra một căn bệnh hiếm gặp nhưng nguy hiểm. Hãy giả sử rằng trong một thành phố 1.000.000 người chỉ có 100 người bị nhiễm bệnh.

Kiểm tra A phát hiện tất cả 100 tích cực này. Tuy nhiên, nó cũng có tỷ lệ dương tính giả là 50%: nó hiển thị sai 500.000 người khác bị bệnh.

Trong khi đó, xét nghiệm B bỏ lỡ 10% số người bị nhiễm, nhưng chỉ đưa ra 1.000 kết quả dương tính giả (tỷ lệ dương tính giả 0,1%)

Hãy tính điểm. Đối với thử nghiệm A, độ chính xác sẽ có hiệu lực 0; thu hồi sẽ chính xác 1. Đối với thử nghiệm B, độ chính xác vẫn sẽ khá nhỏ, khoảng 0,01. Nhớ lại sẽ bằng 0,9.

Nếu chúng ta ngây thơ tổng hợp hoặc lấy trung bình số học của độ chính xác và thu hồi, điều này sẽ cho 1 (0,5) cho thử nghiệm A và 0,91 (0,455) cho thử nghiệm B. Vì vậy, thử nghiệm A có vẻ tốt hơn một chút.

Tuy nhiên, nếu chúng ta nhìn từ góc độ thực tế, xét nghiệm A là vô giá trị: nếu một người được xét nghiệm dương tính, cơ hội của anh ta thực sự bị bệnh là 1 trên 50.000! Xét nghiệm B có ý nghĩa thiết thực hơn: bạn có thể đưa 1.100 người đến bệnh viện và quan sát họ thật kỹ. Điều này được phản ánh chính xác bằng điểm F1: đối với thử nghiệm A, nó sẽ gần bằng 0,0002, đối với thử nghiệm B: (0,01 * 0,9) / (0,01 + 0,9) = 0,0098, vẫn còn khá kém, nhưng tốt hơn khoảng 50 lần.

Trận đấu này giữa giá trị điểm số và ý nghĩa thực tế là điều làm cho điểm F1 có giá trị.


Cảm ơn. Có thể tôi đã không đắm mình trong trường hợp này, nhưng liệu sự làm sáng tỏ này không ảnh hưởng đến lợi thế thực tế của việc phân bổ nguồn lực cho "tích cực" trong một lĩnh vực thực tế trong đó phát hiện một kết quả (tích cực) là mục tiêu? Điều này không phải lúc nào cũng đúng, rằng mục tiêu đang phát hiện một kết quả là gì? đôi khi bạn chỉ muốn biết liệu đó là một quả táo hay một cặp và cả hai loại lỗi đều có cùng chi phí thực tế.
matt

Trên tất cả, những gì tôi không thấy là làm thế nào tính chất này là "tốt hơn" quy mô cho các trường hợp trong đó sự khác biệt (tuyệt đối) giữa độ chính xác và thu hồi là ít bệnh lý. Có lẽ trực giác vốn có ở đó, nhưng tôi chưa ở đó ...
matt

1

Nói chung, tối đa hóa trung bình hình học nhấn mạnh các giá trị là tương tự nhau. Ví dụ: lấy hai mô hình: mô hình thứ nhất có (độ chính xác, thu hồi) = (0,8, 0,8) và mô hình thứ hai có (độ chính xác, thu hồi) = (0,6, 1,0). Sử dụng trung bình đại số, cả hai mô hình sẽ tương đương nhau. Sử dụng trung bình hình học, mô hình đầu tiên tốt hơn bởi vì nó không đánh đổi độ chính xác để thu hồi.


1
Cảm ơn rất nhiều. Tuy nhiên, về mặt thực tế, tôi không thấy bất kỳ ưu tiên áp dụng phổ biến nào giữa ví dụ (0,8, 0,8) và (0,7, 0,9). Có lẽ bạn đã ám chỉ điều gì đó sâu sắc hơn trong "giao dịch Chính xác để thu hồi" - điều mà tôi vẫn chưa tự mình nhận lấy (chưa). Đối với tôi trung bình đại số hai loại lỗi, chỉ đơn giản là đưa ra mức trung bình đơn giản nhất của chúng, không có bất kỳ sự thiên vị nào cho sự tương đồng. Ví dụ: tôi có thể sử dụng phép tính chính xác và thu hồi đơn giản để tìm ra cái nào trong hai phân loại mang lại cho tôi ít lỗi hơn.
matt

Chúng ta có thể đưa điều này đến một thái cực. Giả sử bạn có một hệ thống có (chính xác, thu hồi) = (0,6, 0,6). Điều đó có nghĩa là khi nó nói "có" thì đúng 60% và nó nắm bắt chính xác 60% các sự kiện "có". Bây giờ hãy so sánh điều này với một hệ thống có (0,3, 1). Điều này có ý nghĩa đại số tốt hơn, nhưng nó đang làm gì? Nó đang nắm bắt tất cả các sự kiện "có", nhưng nó cũng nói "có" không chính xác rất nhiều . Như vậy có tốt không Nó có tệ không? Nó phụ thuộc vào lý do tại sao bạn đang xây dựng hệ thống. Bạn sẽ làm gì khi thấy dự đoán "có"? Hậu quả của việc bỏ lỡ một sự kiện "có" là gì?
roundsapes

1
Không có biện pháp nào trong số này là quy tắc chấm điểm chính xác phù hợp
Frank Harrell

@roundsapes cảm ơn rất nhiều, nhưng đối với các trường hợp không phải là bệnh lý - trong đó cả hai không ở gần 0 và 1 - tôi có thể cần trợ giúp để thấy lợi ích của việc nhấn mạnh sự tương đồng giữa hai người, trong biện pháp cuối cùng!
matt

@FrankHarrell cảm ơn bạn đã chỉ vào "con voi trong phòng"
matt
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.