Cách tốt nhất để giải thích tại sao là gì là không một biện pháp tốt, nói, so với F1?
Cách tốt nhất để giải thích tại sao là gì là không một biện pháp tốt, nói, so với F1?
Câu trả lời:
Không phải là là một biện pháp tồi cho mọi người, chỉ có điều, chính nó, con số kết quả không đại diện cho bất cứ điều gì có ý nghĩa. Bạn đang đi đúng hướng mặc dù ... những gì chúng tôi đang tìm kiếm là sự kết hợp, trung bình của hai biện pháp hiệu suất vì chúng tôi không muốn phải lựa chọn giữa chúng.
Nhớ lại rằng độ chính xác và thu hồi được định nghĩa là:
thu hồi tích cực =Tích cực thực sự
Vì cả hai đều có mẫu số khác nhau, nên việc kết hợp chúng lại với nhau sẽ dẫn đến kết quả như sau: ... không đặc biệt hữu ích.
Hãy quay lại để thêm chúng lại với nhau và thực hiện một điều chỉnh: nhân chúng với sao cho chúng ở lại theo đúng tỷ lệ,[0-1]. Đây là lấy mức trung bình quen thuộc của họ.
Vì vậy, chúng tôi có hai đại lượng, có cùng tử số, nhưng mẫu số khác nhau và chúng tôi muốn lấy trung bình của chúng. Chúng ta làm gì? Vâng, chúng tôi có thể lật chúng lên, đưa nghịch đảo của chúng. Sau đó, bạn có thể thêm chúng lại với nhau. Vì vậy, họ là "bên phải lên", bạn lại nghịch đảo.
Quá trình đảo ngược này, và sau đó đảo ngược lại biến một nghĩa "thông thường" thành một ý nghĩa hài hòa. Nó chỉ xảy ra rằng ý nghĩa hài hòa của độ chính xác và thu hồi là thống kê F1. Giá trị trung bình hài thường được sử dụng thay cho trung bình số học tiêu chuẩn khi xử lý tỷ lệ, như chúng ta đang làm ở đây.
Cuối cùng, thống kê F1 chỉ là mức trung bình của độ chính xác và thu hồi và bạn sử dụng nó vì bạn không muốn chọn cái này hay cái kia để đánh giá hiệu suất của mô hình.
Câu trả lời ngắn gọn là: bạn sẽ không mong đợi việc tính tổng hai phần trăm có hai mẫu số khác nhau có ý nghĩa đặc biệt nào. Do đó, cách tiếp cận để thực hiện một biện pháp trung bình như F1, F2 hoặc F0.5. Cái sau giữ lại ít nhất là tài sản của một tỷ lệ phần trăm. Ý nghĩa của chúng là gì?
Vẻ đẹp của Precision và Recall như các biện pháp riêng biệt là sự dễ dàng giải thích của họ và thực tế là họ có thể dễ dàng đối mặt với các mục tiêu kinh doanh của mô hình. Độ chính xác đo tỷ lệ phần trăm trong true positives
số các trường hợp được phân loại positive
theo mô hình. Nhớ lại đo lường tỷ lệ phần trăm true positives
được tìm thấy bởi mô hình trong số tất cả các true
trường hợp. Đối với nhiều vấn đề, bạn sẽ phải chọn giữa tối ưu hóa Chính xác hoặc Thu hồi.
Bất kỳ biện pháp trung bình nào cũng làm mất đi sự giải thích ở trên và nắm rõ biện pháp nào bạn thích nhất. F1 có nghĩa là bạn không biết bạn thích Recall hay Precision hay bạn gắn trọng lượng tương đương với mỗi cái. Nếu bạn coi Recall quan trọng hơn Độ chính xác, thì bạn cũng nên phân bổ trọng số cao hơn cho nó trong phép tính trung bình (ví dụ F2) và ngược lại (ví dụ F0.5).
Thêm hai là một biện pháp xấu. Bạn sẽ nhận được ít nhất 1 điểm nếu bạn đánh dấu mọi thứ là tích cực, vì theo định nghĩa đó là thu hồi 100%. Và bạn sẽ có được một chút chính xác trên đó. Giá trị trung bình hình học được sử dụng trong F1 nhấn mạnh vào liên kết yếu, vì nó là cấp số nhân; ít nhất bạn phải làm tốt với cả độ chính xác và thu hồi để có được điểm F1 khá.
Điểm F1 đặc biệt có giá trị trong trường hợp xác suất không đối xứng nghiêm trọng.
Hãy xem xét ví dụ sau: chúng tôi kiểm tra một căn bệnh hiếm gặp nhưng nguy hiểm. Hãy giả sử rằng trong một thành phố 1.000.000 người chỉ có 100 người bị nhiễm bệnh.
Kiểm tra A phát hiện tất cả 100 tích cực này. Tuy nhiên, nó cũng có tỷ lệ dương tính giả là 50%: nó hiển thị sai 500.000 người khác bị bệnh.
Trong khi đó, xét nghiệm B bỏ lỡ 10% số người bị nhiễm, nhưng chỉ đưa ra 1.000 kết quả dương tính giả (tỷ lệ dương tính giả 0,1%)
Hãy tính điểm. Đối với thử nghiệm A, độ chính xác sẽ có hiệu lực 0; thu hồi sẽ chính xác 1. Đối với thử nghiệm B, độ chính xác vẫn sẽ khá nhỏ, khoảng 0,01. Nhớ lại sẽ bằng 0,9.
Nếu chúng ta ngây thơ tổng hợp hoặc lấy trung bình số học của độ chính xác và thu hồi, điều này sẽ cho 1 (0,5) cho thử nghiệm A và 0,91 (0,455) cho thử nghiệm B. Vì vậy, thử nghiệm A có vẻ tốt hơn một chút.
Tuy nhiên, nếu chúng ta nhìn từ góc độ thực tế, xét nghiệm A là vô giá trị: nếu một người được xét nghiệm dương tính, cơ hội của anh ta thực sự bị bệnh là 1 trên 50.000! Xét nghiệm B có ý nghĩa thiết thực hơn: bạn có thể đưa 1.100 người đến bệnh viện và quan sát họ thật kỹ. Điều này được phản ánh chính xác bằng điểm F1: đối với thử nghiệm A, nó sẽ gần bằng 0,0002, đối với thử nghiệm B: (0,01 * 0,9) / (0,01 + 0,9) = 0,0098, vẫn còn khá kém, nhưng tốt hơn khoảng 50 lần.
Trận đấu này giữa giá trị điểm số và ý nghĩa thực tế là điều làm cho điểm F1 có giá trị.
Nói chung, tối đa hóa trung bình hình học nhấn mạnh các giá trị là tương tự nhau. Ví dụ: lấy hai mô hình: mô hình thứ nhất có (độ chính xác, thu hồi) = (0,8, 0,8) và mô hình thứ hai có (độ chính xác, thu hồi) = (0,6, 1,0). Sử dụng trung bình đại số, cả hai mô hình sẽ tương đương nhau. Sử dụng trung bình hình học, mô hình đầu tiên tốt hơn bởi vì nó không đánh đổi độ chính xác để thu hồi.