Tại sao thước đo F thường được sử dụng cho các nhiệm vụ phân loại (được giám sát), trong khi chỉ số G-đo (hoặc chỉ số FowlkesTHER Mallows) thường được sử dụng cho các nhiệm vụ phân cụm (không giám sát)?
Thước đo F là giá trị trung bình hài hòa của độ chính xác và thu hồi .
Thước đo G (hay chỉ số Fowlkes trộm Mallows) là giá trị trung bình hình học của độ chính xác và thu hồi .
Dưới đây là một âm mưu của các phương tiện khác nhau.
Lý do tôi hỏi là tôi cần quyết định sử dụng mức trung bình nào trong nhiệm vụ NLG, trong đó tôi đo BLEU và ROUGE (trong đó BLEU tương đương với độ chính xác và ROUGE để gọi lại). Làm thế nào tôi nên tính trung bình của các điểm số này?