Gần đây tôi đã phải chọn một số liệu để đánh giá các thuật toán xếp hạng đa nhãn và đến chủ đề này, điều này thực sự hữu ích. Dưới đây là một số bổ sung cho câu trả lời của stpk, rất hữu ích cho việc lựa chọn.
- MAP có thể được điều chỉnh phù hợp với các vấn đề đa nhãn, với chi phí gần đúng
- MAP không cần phải được tính toán ở k nhưng phiên bản đa nhãn có thể không được điều chỉnh khi lớp phủ định là tiền thân
- Cả MAP và (N) DCG đều có thể được viết lại dưới dạng trung bình các giá trị liên quan được xếp hạng
Chi tiết
Chúng ta hãy tập trung vào độ chính xác trung bình (AP) vì độ chính xác trung bình (MAP) chỉ là trung bình của các AP trên một số truy vấn. AP được xác định chính xác trên dữ liệu nhị phân là khu vực dưới đường cong thu hồi chính xác, có thể được viết lại dưới dạng trung bình của các phần tử tại mỗi mục dương. (xem bài viết trên wikipedia về MAP ) Một phép tính gần đúng có thể là định nghĩa nó là trung bình của các giới hạn ở mỗimục. Đáng buồn thay, chúng ta mất đi tài sản tốt đẹp mà các ví dụ tiêu cực được xếp hạng ở cuối danh sách không có tác động đến giá trị của AP. . khó truy vấn với một vài ví dụ tích cực.)
Mặt khác, phép tính gần đúng này có đặc tính tốt là nó khái quát tốt cho trường hợp đa nhãn. Thật vậy, trong trường hợp nhị phân, độ chính xác ở vị trí k cũng có thể được hiểu là mức độ liên quan trung bình trước vị trí k, trong đó mức độ liên quan của một ví dụ tích cực là 1 và mức độ liên quan của một ví dụ tiêu cực là 0. Định nghĩa này mở rộng khá tự nhiên trường hợp có nhiều hơn hai mức độ liên quan khác nhau. Trong trường hợp này, AP cũng có thể được định nghĩa là giá trị trung bình của mức trung bình của mức độ phù hợp tại mỗi vị trí.
k
wMột Pk= 1Kđăng nhập( Kk)
K
wD CGk= 1đăng nhập( k + 1 )
Từ hai biểu thức này, chúng ta có thể suy ra rằng - AP cân các tài liệu từ 1 đến 0. - DCG cân các tài liệu một cách độc lập với tổng số tài liệu.
Trong cả hai trường hợp, nếu có nhiều ví dụ không liên quan hơn nhiều so với các ví dụ có liên quan, tổng trọng số của dương có thể không đáng kể. Đối với AP, cách giải quyết là lấy mẫu âm tính, nhưng tôi không chắc chắn cách chọn tỷ lệ mẫu phụ, cũng như liệu có nên phụ thuộc vào truy vấn hoặc vào số lượng tài liệu dương hay không. Đối với DCG, chúng tôi có thể cắt nó ở k, nhưng loại câu hỏi tương tự phát sinh.
Tôi rất vui khi biết thêm về điều này, nếu có ai ở đây làm việc về chủ đề này.