Làm thế nào để giải thích các giá trị F-đo?


41

Tôi muốn biết làm thế nào để giải thích sự khác biệt của các giá trị f-đo. Tôi biết rằng f-đo là một giá trị trung bình cân bằng giữa độ chính xác và thu hồi, nhưng tôi đang hỏi về ý nghĩa thực tế của sự khác biệt trong các biện pháp F.

Ví dụ: nếu một bộ phân loại C1 có độ chính xác là 0,4 và một bộ phân loại khác có độ chính xác là 0,8, thì chúng ta có thể nói rằng C2 đã phân loại chính xác gấp đôi các ví dụ kiểm tra so với C1. Tuy nhiên, nếu một bộ phân loại C1 có số đo F là 0,4 cho một loại nhất định và một bộ phân loại khác C2 có số đo F là 0,8, chúng ta có thể nói gì về sự khác biệt về hiệu suất của 2 bộ phân loại? Chúng ta có thể nói rằng C2 đã phân loại X nhiều trường hợp chính xác hơn C1 không?


2
Tôi không chắc bạn có thể nói nhiều vì thước đo F là chức năng của cả độ chính xác và thu hồi: en.wikipedia.org/wiki/F1_score . Bạn có thể làm toán mặc dù và giữ một (không chính xác hoặc nhớ lại) và nói điều gì đó về cái kia.
Nick

Câu trả lời:


41

Tôi không thể nghĩ ra ý nghĩa trực quan của thước đo F, vì nó chỉ là một số liệu kết hợp. Tất nhiên, điều trực quan hơn F-mesure là độ chính xác và thu hồi.

Nhưng sử dụng hai giá trị, chúng ta thường không thể xác định liệu một thuật toán có tốt hơn thuật toán khác hay không. Ví dụ, nếu một thuật toán có độ chính xác cao hơn nhưng thu hồi thấp hơn thuật toán khác, làm thế nào bạn có thể biết thuật toán nào tốt hơn?

Nếu bạn có một mục tiêu cụ thể trong đầu như 'Chính xác là vua. Tôi không quan tâm nhiều đến việc thu hồi ', vậy thì không có vấn đề gì. Độ chính xác cao hơn là tốt hơn. Nhưng nếu bạn không có mục tiêu mạnh mẽ như vậy, bạn sẽ muốn có một số liệu kết hợp. Đó là F-đo. Bằng cách sử dụng nó, bạn sẽ so sánh một số độ chính xác và một số thu hồi.

Đường cong ROC thường được vẽ cho biết số đo F. Bạn có thể thấy bài viết này thú vị vì nó chứa lời giải thích về một số biện pháp bao gồm các đường cong ROC: http://binf.gmu.edu/mmasso/ROC101.pdf


23

Tầm quan trọng của điểm F1 là khác nhau dựa trên kịch bản. Giả sử biến mục tiêu là nhãn nhị phân.

  • Lớp cân bằng: Trong tình huống này, điểm F1 có thể bị bỏ qua một cách hiệu quả, tỷ lệ phân loại sai là chìa khóa.
  • Lớp không cân bằng, nhưng cả hai lớp đều quan trọng: Nếu phân phối lớp bị sai lệch cao (chẳng hạn như 80:20 hoặc 90:10), thì trình phân loại có thể có tỷ lệ phân loại sai thấp chỉ bằng cách chọn lớp đa số. Trong tình huống như vậy, tôi sẽ chọn trình phân loại đạt điểm F1 cao ở cả hai lớp, cũng như tỷ lệ phân loại sai thấp. Một bộ phân loại đạt điểm F1 thấp nên được bỏ qua.
  • Lớp không cân bằng, nhưng lớp này quan trọng hơn lớp kia. Ví dụ: trong phát hiện gian lận, điều quan trọng hơn là phải gắn nhãn chính xác cho một trường hợp là gian lận, trái ngược với việc gắn nhãn cho trường hợp không lừa đảo. Trong trường hợp này, tôi sẽ chọn trình phân loại có điểm F1 tốt chỉ trên lớp quan trọng . Nhớ lại rằng điểm F1 có sẵn cho mỗi lớp.

9

F-đo có một ý nghĩa trực quan. Nó cho bạn biết mức độ chính xác của trình phân loại của bạn (bao nhiêu trường hợp nó phân loại chính xác), cũng như mức độ mạnh mẽ của nó (nó không bỏ lỡ một số lượng đáng kể các trường hợp).

Với độ chính xác cao nhưng độ thu hồi thấp, bộ phân loại của bạn cực kỳ chính xác, nhưng nó bỏ lỡ một số lượng đáng kể các trường hợp khó phân loại. Điều này không hữu ích lắm.

Hãy nhìn vào biểu đồ này. nhập mô tả hình ảnh ở đâyBỏ qua mục đích ban đầu của nó.

Hướng về bên phải, bạn có được độ chính xác cao, nhưng thu hồi thấp. Nếu tôi chỉ chọn các trường hợp có điểm trên 0,9, các trường hợp được phân loại của tôi sẽ cực kỳ chính xác, tuy nhiên tôi sẽ bỏ lỡ một số lượng đáng kể các trường hợp. Các thí nghiệm chỉ ra rằng điểm ngọt ở đây là khoảng 0,76, trong đó số đo F là 0,87.


5

Thước đo F là giá trị trung bình hài hòa của độ chính xác và thu hồi của bạn. Trong hầu hết các tình huống, bạn có sự đánh đổi giữa độ chính xác và thu hồi. Nếu bạn tối ưu hóa trình phân loại của mình để tăng cái này và làm biến dạng cái kia, thì điều hòa có nghĩa sẽ nhanh chóng giảm xuống. Tuy nhiên, đó là lớn nhất, khi cả độ chính xác và thu hồi đều bằng nhau.

Đưa ra các số đo F là 0,4 và 0,8 cho các phân loại của bạn, bạn có thể mong đợi rằng đây là những giá trị tối đa đạt được khi cân nhắc độ chính xác chống lại việc thu hồi.

Để tham khảo trực quan, hãy xem con số này từ Wikipedia :

nhập mô tả hình ảnh ở đây

Thước đo F là H , AB là thu hồi và độ chính xác. Bạn có thể tăng một, nhưng sau đó giảm.


Tôi thấy việc trực quan hóa "Thang chéo" đơn giản hơn một chút - đối với tôi, nó làm cho sự bình đẳng của A = B dẫn đến kết quả H trực quan hơn
Coruscate5

3

Công thức của phép đo F (F1, với beta = 1) giống như công thức cho điện trở tương đương gồm hai điện trở được đặt song song trong vật lý (quên đi yếu tố 2).

Điều này có thể cung cấp cho bạn một giải thích có thể, và bạn có thể suy nghĩ về cả điện trở nhiệt hoặc điện trở nhiệt. Sự tương tự này sẽ định nghĩa F-đo là điện trở tương đương được hình thành bởi độ nhạy và độ chính xác được đặt song song.

Đối với thước đo F, mức tối đa có thể là 1, và bạn mất đi sức đề kháng ngay khi một trong hai anh ta cũng mất đi sức đề kháng (điều đó cũng có nghĩa là, nhận được giá trị dưới 1). Nếu bạn muốn hiểu rõ hơn về đại lượng này và tính năng động của nó, hãy nghĩ về hiện tượng vật lý. Ví dụ: có vẻ như số đo F <= max (độ nhạy, độ chính xác).


3

Với độ chính xác trên trục y và gọi lại trên trục x, độ dốc của đường cong mức tại (1, 1) là .Fβ1/β2

Cho và , hãy để là tỷ lệ chi phí của âm tính giả với dương tính giả. Sau đó, tổng chi phí lỗi tỷ lệ thuận vớiVậy độ dốc của đường cong mức tại (1, 1) là . Do đó, đối với các mô hình tốt sử dụng ngụ ý bạn xem xét các phủ định sai tốn kém gấp lần so với dương tính giả.

P=TPTP+FP
R=TPTP+FN
α
α1RR+1PP.
αFββ2

1

bạn có thể viết phương trình F-đo http: // theo cách khác vì vậy, khi , nên quan trọng hơn (hoặc, lớn hơn, để có được tỷ lệ cao hơn ).

Fβ=1/((β2/(β2+1))1/r+(1/(β2+1))1/p)
β2<1pFβ

0

Ý nghĩa trực quan gần nhất của điểm số F1 đang được coi là giá trị trung bình của thu hồi và độ chính xác. Hãy xóa nó cho bạn:

Trong một nhiệm vụ phân loại, bạn có thể dự định xây dựng một bộ phân loại với độ chính xác thu hồi cao. Ví dụ, một bộ phân loại cho biết một người có trung thực hay không.

Để chính xác, bạn có thể thường nói chính xác có bao nhiêu người trung thực ngoài kia trong một nhóm nhất định. Trong trường hợp này, khi quan tâm đến độ chính xác cao, bạn cho rằng bạn có thể phân loại sai một người nói dối là trung thực nhưng không thường xuyên. Nói cách khác, ở đây bạn đang cố gắng xác định người nói dối từ trung thực như một nhóm.

Tuy nhiên, để nhớ lại, bạn sẽ thực sự lo lắng nếu bạn nghĩ một người nói dối phải trung thực. Đối với bạn, đây sẽ là một mất mát lớn và một sai lầm lớn và bạn không muốn làm lại. Ngoài ra, không sao nếu bạn phân loại ai đó trung thực là kẻ nói dối nhưng người mẫu của bạn không bao giờ (hoặc chủ yếu là không) yêu cầu người nói dối là trung thực. Nói cách khác, ở đây bạn đang tập trung vào một lớp cụ thể và bạn đang cố gắng không phạm sai lầm về nó.

Bây giờ, hãy xem trường hợp bạn muốn mô hình của mình (1) xác định chính xác trung thực từ một kẻ nói dối (độ chính xác) (2) xác định mỗi người từ cả hai lớp (nhớ lại). Điều đó có nghĩa là bạn sẽ chọn mô hình sẽ hoạt động tốt trên cả hai số liệu.

Sau đó, bạn quyết định lựa chọn mô hình sẽ cố gắng đánh giá từng mô hình dựa trên giá trị trung bình của hai số liệu. Điểm số F là điểm tốt nhất có thể mô tả điều này. Chúng ta hãy xem công thức:

Nhớ lại: p = tp / (tp + fp)

Nhớ lại: r = tp / (tp + fn)

Điểm F: fscore = 2 / (1 / r + 1 / p)

Như bạn thấy, độ thu hồi độ chính xác càng cao thì điểm F càng cao.


0

Biết rằng điểm F1 là ý nghĩa hài hòa của độ chính xác và thu hồi, dưới đây là một chút về chúng.

Tôi muốn nói Recall liên quan nhiều hơn đến phủ định sai .ie, Có Recall cao hơn có nghĩa là có ít NEGATIVES FALSE .

Recall=tptp+fn

Càng ít FN hoặc Zero FN, dự đoán mô hình của bạn thực sự tốt.

Trong khi có phương tiện Độ chính xác cao hơn, sẽ có ít VỊ TRÍ FALSE

Precision=tptp+fp

Tương tự ở đây, Ít hoặc không sai tích cực có nghĩa là Dự đoán mô hình thực sự tốt.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.