Tại sao F-Measure lại là giá trị trung bình điều hòa mà không phải là trung bình cộng của các phép đo Độ chính xác và Gọi lại?


86

Khi chúng tôi tính toán F-Measure có xét đến cả Độ chính xác và Nhớ lại, chúng tôi lấy giá trị trung bình hài hòa của hai số đo thay vì giá trị trung bình số học đơn giản.

Lý do trực quan đằng sau việc lấy trung bình điều hòa chứ không phải trung bình đơn giản là gì?


1
Trực giác là cân bằng giữa độ chính xác và độ nhớ (thường là phép đo tốt nhất, nhưng trong một số trường hợp bạn muốn tối đa hóa độ chính xác hoặc độ nhớ lại thì lại là chuyện khác). Bạn không thể nhận được điểm f cao nếu một trong hai điểm rất thấp.
greeness

1
cse.unsw.edu.au/~teachadmin/info/harmonic3.html Đây là một nguồn lực tốt để hiểu biết HM
Sudip Bhandari

2
Sửa liên kết ở trên: di.unipi.it/~bozzo/The%20Harmonic%20Mean.htm hoặc bản gốc @ archive.org
stason

Câu trả lời:


16

Ở đây chúng tôi đã có một số câu trả lời phức tạp nhưng tôi nghĩ rằng một số thông tin thêm về nó sẽ hữu ích cho một số người muốn tìm hiểu sâu hơn (đặc biệt là tại sao F đo).

Theo lý thuyết đo lường, số đo tổng hợp phải thỏa mãn 6 định nghĩa sau:

  1. Kết nối (có thể sắp xếp hai cặp) và độ nhạy (nếu e1> = e2 và e2> = e3 thì e1> = e3)
  2. Độc lập: hai thành phần đóng góp tác dụng của chúng một cách độc lập với hiệu quả.
  3. Điều kiện Thomsen: Giả sử rằng tại một lần truy xuất không đổi (độ chính xác), chúng ta tìm thấy sự khác biệt về hiệu quả của hai giá trị độ chính xác (thu hồi) thì sự khác biệt này không thể bị loại bỏ hoặc đảo ngược bằng cách thay đổi giá trị không đổi.
  4. Khả năng giải quyết bị hạn chế.
  5. Mỗi thành phần đều cần thiết: Sự thay đổi trong một trong khi giữ nguyên không đổi khác sẽ tạo ra sự thay đổi về hiệu quả.
  6. Thuộc tính Archimedean cho từng thành phần. Nó chỉ đảm bảo rằng các khoảng thời gian trên một thành phần có thể so sánh được.

Sau đó, chúng ta có thể suy ra và nhận được hàm của hiệu quả: nhập mô tả hình ảnh ở đây

Và thông thường chúng tôi không sử dụng tính hiệu quả nhưng điểm F đơn giản hơn nhiều :
nhập mô tả hình ảnh ở đây

Bây giờ chúng ta có công thức tổng quát của độ đo F:

nhập mô tả hình ảnh ở đây

nơi chúng ta có thể đặt nặng hơn về khả năng thu hồi hoặc độ chính xác bằng cách đặt beta, vì beta được định nghĩa như sau:

nhập mô tả hình ảnh ở đây

Nếu chúng ta cân nhắc lại trọng số quan trọng hơn độ chính xác (tất cả các liên quan đều được chọn), chúng ta có thể đặt beta là 2 và chúng ta nhận được số đo F2. Và nếu chúng tôi thực hiện đảo ngược và độ chính xác trọng số cao hơn thu hồi (càng nhiều phần tử được chọn có liên quan càng tốt, chẳng hạn như trong một số trường hợp sửa lỗi ngữ pháp như CoNLL ), chúng tôi chỉ đặt beta là 0,5 và lấy số đo F0,5. Và rõ ràng là chúng ta có thể đặt beta là 1 để có được số đo F1 được sử dụng nhiều nhất (trung bình hài hòa của độ chính xác và thu hồi).

Tôi nghĩ ở một mức độ nào đó, tôi đã trả lời được tại sao chúng ta không sử dụng trung bình cộng.

Người giới thiệu:

  1. https://en.wikipedia.org/wiki/F1_score
  2. Sự thật của thước đo F
  3. Kiểm tra lại thông tin

99

Để giải thích, hãy xem xét ví dụ, trung bình của 30mph và 40mph là bao nhiêu? nếu bạn lái xe trong 1 giờ với mỗi tốc độ, tốc độ trung bình trong 2 giờ thực sự là trung bình số học, 35mph.

Tuy nhiên, nếu bạn lái xe cho cùng một khoảng cách ở mỗi tốc độ - nói 10 dặm - thì tốc độ trung bình hơn 20 dặm là trung bình điều hòa từ 30 đến 40, khoảng 34.3mph.

Lý do là để giá trị trung bình hợp lệ, bạn thực sự cần các giá trị ở cùng đơn vị được chia tỷ lệ. Dặm một giờ cần phải được so sánh trên cùng một số giờ; để so sánh trên cùng một số dặm bạn cần phải giờ trung bình mỗi dặm thay vào đó, đó là chính xác những gì trung bình điều hòa không.

Độ chính xác và thu hồi đều có giá trị dương thực sự ở tử số và mẫu số khác nhau. Để tính trung bình chúng thực sự chỉ có ý nghĩa khi tính trung bình số qua lại của chúng, do đó có nghĩa là điều hòa.


7
Cảm ơn, đó là một lập luận tốt về lý do tại sao điều này được hỗ trợ từ lý thuyết; câu trả lời của tôi nghiêng về phía thực dụng hơn.
Có QUIT - Anony-Mousse.

77

Bởi vì nó trừng phạt các giá trị cực đoan nhiều hơn.

Hãy xem xét một phương thức tầm thường (ví dụ: luôn trả về lớp A). Có vô hạn phần tử dữ liệu thuộc lớp B và một phần tử duy nhất của lớp A:

Precision: 0.0
Recall:    1.0

Khi lấy trung bình cộng, nó sẽ đúng 50%. Mặc dù là kết quả tồi tệ nhất có thể! Với giá trị trung bình điều hòa, số đo F1 là 0.

Arithmetic mean: 0.5
Harmonic mean:   0.0

Nói cách khác, để có F1 cao, bạn cần phải có cả độ chính xác và khả năng thu hồi cao.


Khi thu hồi là 0,0 độ chính xác phải lớn hơn 0,0 đúng không? Nhưng tôi hiểu được điểm trong ví dụ của bạn. Giải thích độc đáo - Cảm ơn.
Anh chàng London

1
Trong ví dụ của bạn, độ chính xác cho lớp A là 0,5 thay vì 0 và gọi lại của lớp A là 1; độ chính xác cho lớp B là 0 và gọi lại lớp B là 0 như chúng ta sẽ. Tôi giả sử rằng lớp cân bằng của bạn có nghĩa là các nhãn thực sự là A và B; mỗi cái áp dụng cho 50% dữ liệu.
greeness

Hãy tạo vô số phần tử của lớp B và một phần tử duy nhất của lớp A. Nó không thay đổi phép toán đằng sau F1.
Có QUIT - Anony-Mousse.

2
Nó không chỉ là một cuộc nghiên cứu để chọn cân bằng hơn. Trung bình hài hòa là chỉ có cách hợp lý với các đơn vị của các tỷ lệ này. So sánh nghĩa là sẽ không có ý nghĩa gì
Sean Owen

Nó nói "heuristic" ở đâu, và nhận xét của bạn khác với câu trả lời của tôi ở điểm nào? Nhưng: F-Measure một phương pháp heuristic ở chỗ nó giả định độ chính xác và khả năng thu hồi đều quan trọng như nhau. Đó là lý do tại sao thuật ngữ beta cần được chọn - về mặt kinh nghiệm, ta thường sử dụng beta = 1.
Có QUIT - Anony-Mousse

29

Các câu trả lời trên đã được giải thích rõ ràng. Đây chỉ là để tham khảo nhanh để hiểu bản chất của trung bình số học và trung bình điều hòa với các đồ thị. Như bạn có thể thấy từ biểu đồ, hãy coi trục X và trục Y là độ chính xác và nhớ lại, và trục Z là Điểm F1. Vì vậy, từ biểu đồ của trung bình hài hòa, cả độ chính xác và thu hồi phải đóng góp đồng đều cho điểm F1 tăng lên không giống như trung bình số học.

Đây là giá trị trung bình số học.

nhập mô tả hình ảnh ở đây

Đây là giá trị trung bình Harmonic.

nhập mô tả hình ảnh ở đây


Vui lòng sử dụng các công cụ định dạng để chỉnh sửa và định dạng đúng câu trả lời của bạn. Hình ảnh sẽ được hiển thị ở đây, nó không phải là một siêu liên kết.
Morse

26

Giá trị trung bình điều hòa tương đương với giá trị trung bình cộng đối với các đại lượng nghịch đảo cần được tính trung bình bằng giá trị trung bình cộng. Chính xác hơn, với giá trị trung bình hài hòa, bạn biến đổi tất cả các số của mình thành dạng "trung bình" (bằng cách lấy nghịch đảo), bạn lấy trung bình cộng của chúng và sau đó biến đổi kết quả trở lại biểu diễn ban đầu (bằng cách lấy nghịch đảo một lần nữa).

Độ chính xác và việc thu hồi là "tự nhiên" qua lại vì tử số của chúng giống nhau và mẫu số của chúng khác nhau. Phân số hợp lý hơn để lấy trung bình cộng theo trung bình cộng khi chúng có cùng mẫu số.

Để có trực giác hơn, hãy giả sử rằng chúng ta giữ cho số lượng các mục dương thực sự không đổi. Sau đó, bằng cách lấy giá trị trung bình hài hòa của độ chính xác và độ thu hồi, bạn mặc nhiên lấy giá trị trung bình cộng của giá trị dương giả và âm tính giả. Về cơ bản, nó có nghĩa là dương tính giả và âm tính giả đều quan trọng như nhau đối với bạn khi kết quả dương tính thật không đổi. Nếu một thuật toán có thêm N mục dương tính sai nhưng N ít âm tính giả hơn (trong khi có cùng giá trị dương tính thật), thì phép đo F vẫn giữ nguyên.

Nói cách khác, thước đo F phù hợp khi:

  1. sai lầm đều tồi tệ như nhau, cho dù đó là dương tính giả hay âm tính giả
  2. số lượng sai lầm được đo lường so với số lượng tích cực thực sự
  3. phủ định thực sự không thú vị

Điểm 1 có thể đúng hoặc không, có những biến thể có trọng số của số đo F có thể được sử dụng nếu giả định này không đúng. Điểm 2 là khá tự nhiên vì chúng ta có thể mong đợi kết quả sẽ chia theo thang điểm nếu chúng ta chỉ phân loại càng nhiều điểm. Các con số tương đối nên giữ nguyên.

Điểm 3 khá thú vị. Trong nhiều ứng dụng, phủ định là mặc định tự nhiên và thậm chí có thể khó hoặc tùy tiện để chỉ định những gì thực sự được coi là phủ định thực sự. Ví dụ, một thiết bị báo cháy đang có một sự kiện tiêu cực thực sự mỗi giây, mỗi nano giây, mỗi khi thời gian Planck trôi qua, v.v. Ngay cả một tảng đá cũng có những sự kiện phát hiện cháy âm thực sự này mọi lúc.

Hoặc trong trường hợp nhận diện khuôn mặt, hầu hết trường hợp bạn " không trả lại " hàng tỷ khu vực có thể có trong ảnh nhưng điều này không thú vị. Các trường hợp thú vị là khi bạn làm trả về một phát hiện đề nghị hoặc khi bạn cần gửi lại.

Ngược lại, độ chính xác của phân loại quan tâm như nhau đến dương tính thực sự và tiêu cực thực sự và phù hợp hơn nếu tổng số mẫu (sự kiện phân loại) được xác định rõ ràng và khá nhỏ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.