F1 / Dice-Điểm so với IoU


24

Tôi đã nhầm lẫn về sự khác biệt giữa điểm F1, điểm Dice và IoU (giao điểm trên liên minh). Đến bây giờ tôi phát hiện ra rằng F1 và Dice có nghĩa là cùng một thứ (phải không?) Và IoU có một công thức rất giống với hai cái kia.

  • F1 / Xúc xắc:
    2TP2TP+FP+FN
  • IoU / Jaccard:
    TPTP+FP+FN

Có sự khác biệt thực tế hoặc những điều khác đáng chú ý ngoại trừ việc F1 có trọng số thực sự cao hơn không? Có một tình huống mà tôi sử dụng một nhưng không phải là một?


Rõ ràng hệ số Jaccard cũng giống như IoU
pietz

Tôi đặc biệt quan tâm nếu một số trong các phép đo này (bây giờ là 4) chỉ dành cho dữ liệu nhị phân.
pietz

Câu trả lời:


37

Bạn đang đi đúng hướng.

F/2tôioBạnF
và cũng là họ gặp nhau tại những thái cực của một và không theo các điều kiện mà bạn mong đợi (kết hợp hoàn hảo và hoàn toàn rời rạc).

tôioBạn/F= =1/2+tôioBạn/2
do đó tỷ lệ tiếp cận 1/2 như cả hai chỉ số tiếp cận zero.

Nhưng có một tuyên bố mạnh mẽ hơn có thể được đưa ra cho ứng dụng điển hình của phân loại một máy học. Đối với bất kỳ "sự thật cơ bản" cố định nào, hai số liệu luôn có mối tương quan tích cực. Điều đó có nghĩa là nếu phân loại A tốt hơn B theo một số liệu, thì nó cũng tốt hơn phân loại B theo số liệu khác.

Thật hấp dẫn khi kết luận rằng hai số liệu tương đương về chức năng nên sự lựa chọn giữa chúng là tùy ý, nhưng không quá nhanh! Vấn đề xảy ra khi lấy điểm trung bình trên một tập hợp các suy luận . Sau đó, sự khác biệt xuất hiện khi định lượng mức độ phân loại B kém hơn A đối với bất kỳ trường hợp cụ thể nào.

Nói chung, số liệu IoU có xu hướng xử phạt các trường hợp phân loại xấu nhiều hơn điểm F về mặt định lượng ngay cả khi cả hai có thể đồng ý rằng trường hợp này là xấu. Tương tự như cách L2 có thể xử phạt những lỗi lớn nhất nhiều hơn L1, số liệu IoU có xu hướng có hiệu ứng "bình phương" đối với các lỗi liên quan đến điểm F. Vì vậy, điểm F có xu hướng đo lường một cái gì đó gần hơn với hiệu suất trung bình, trong khi điểm số IoU đo lường một cái gì đó gần với hiệu suất trường hợp xấu nhất.

Ví dụ, giả sử rằng phần lớn các suy luận tốt hơn ở mức độ vừa phải với phân loại A so với B, nhưng một số trong số chúng tồi tệ hơn đáng kể khi sử dụng phân loại A. phân loại B.

Để chắc chắn, cả hai số liệu này giống nhau nhiều hơn so với chúng là khác nhau. Nhưng cả hai đều phải chịu một bất lợi khác từ quan điểm lấy điểm trung bình của các điểm số này qua nhiều suy luận: cả hai đều nói quá tầm quan trọng của các tập hợp với các tập hợp tích cực thực tế không có thực. Trong ví dụ phổ biến về phân đoạn hình ảnh, nếu một hình ảnh chỉ có một pixel của một số lớp có thể phát hiện được và bộ phân loại phát hiện pixel đó và một pixel khác, điểm F của nó thấp hơn 2/3 và IoU thậm chí còn tệ hơn ở mức 1 / 2. Những sai lầm tầm thường như thế này có thể chi phối nghiêm trọng điểm trung bình được thực hiện trên một bộ ảnh. Nói tóm lại, nó cân nhắc từng lỗi pixel tỷ lệ nghịch với kích thước của tập hợp được chọn / có liên quan thay vì xử lý chúng như nhau.

c0c1


Willem, tôi không thể yêu cầu một câu trả lời tốt hơn. cảm ơn bạn rất nhiều vì đã dành thời gian
pietz

5
Tôi đã thử cách tiếp cận lỗi hoàn toàn của bạn và chỉ muốn thêm rằng nó không hoạt động tốt với sự mất cân bằng liên tục giữa tích cực và tiêu cực. Hãy tưởng tượng toàn bộ tập dữ liệu hình ảnh trong đó chỉ có một pixel tạo nên phân đoạn sự thật mặt đất. Mạng nơ-ron có thể học khá nhanh rằng dự đoán trống luôn chính xác 99,9% khi sử dụng tổng lỗi. Bằng cách đi với IoU hoặc DSC, chúng tôi gây áp lực cho mạng để tìm phân khúc do những lý do tương tự như bạn đã đề cập ở trên. Vì vậy, cuối cùng nó rất phụ thuộc vào vấn đề.
pietz

1
Ai đó có thể giúp tôi điều hòa hai câu sau đây không ?: 1: "That is to say that if classifier A is better than B under one metric, it is also better than classifier B under the other metric."và 2:"It may be the case then that the F metric favors classifier A while the IoU metric favors classifier B."
Matt Kleinsmith

1
Cái trước đề cập đến một điểm của một suy luận duy nhất, và cái sau đề cập đến một điểm trung bình trên một tập hợp các suy luận (ví dụ: một tập hợp các hình ảnh).
willem
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.