Theo trực giác, nhận được P / R / F1 cao trên một tập dữ liệu nhỏ hoặc trên bộ dữ liệu rất thống nhất / có thể dự đoán có lẽ dễ dàng hơn so với việc lấy P / R / F1 cao trên các tập dữ liệu lớn hơn hoặc hỗn loạn hơn. Do đó, sự cải thiện P / R / F1 trên bộ dữ liệu lớn hơn và hỗn loạn hơn có ý nghĩa hơn.
Theo trực giác này, có lẽ bạn sẽ cần quyền truy cập vào đầu ra của các phương thức "hộp đen" để đo lường sự khác biệt trong phân phối kết quả, đồng thời tính đến kích thước và sự đa dạng trong bộ đó. Chỉ riêng P / R / F1 có lẽ là quá ít thông tin.
Kiểm tra ý nghĩa trong cài đặt này thường được thực hiện bằng cách hình thành một giả thuyết null (hai thuật toán tạo ra cùng một đầu ra) và sau đó tính xác suất quan sát sự khác biệt về đầu ra mà bạn đang quan sát nếu các thuật toán thực sự giống nhau. Nếu xác suất nhỏ hơn 0,05 chẳng hạn, bạn từ chối giả thuyết khống và kết luận rằng sự cải thiện là đáng kể.
Bài viết này có các cuộc thảo luận có liên quan:
http://www.aclweb.org/anthology/C00-2137