Số liệu để đánh giá các thuật toán xếp hạng


13

Tôi quan tâm đến việc xem xét một số số liệu khác nhau cho các thuật toán xếp hạng - có một số được liệt kê trên trang wikipedia Học để xếp hạng, bao gồm:

• Độ chính xác trung bình trung bình (MAP);

• DCG và NDCG;

• Chính xác @ n, NDCG @ n, trong đó "@n" biểu thị rằng các số liệu chỉ được đánh giá trên các tài liệu hàng đầu;

• Thứ hạng đối ứng trung bình;

• Kendall của tau

• Rhearman's Rho

• Xếp hạng đối ứng dự kiến

• Quần áo của Yandex

nhưng đối với tôi không rõ ưu điểm / nhược điểm của từng loại hoặc khi bạn có thể chọn cái này hơn cái kia (hoặc có nghĩa là gì nếu một thuật toán vượt trội hơn một thuật toán khác trên NDGC nhưng tệ hơn khi được đánh giá với MAP).

Có nơi nào tôi có thể đến để tìm hiểu thêm về những câu hỏi này không?

Câu trả lời:


27

Tôi thực sự đang tìm kiếm cùng một câu trả lời, tuy nhiên tôi sẽ có thể trả lời ít nhất một phần câu hỏi của bạn.

Tất cả các số liệu mà bạn đã đề cập đều có những đặc điểm khác nhau và thật không may, số liệu bạn nên chọn phụ thuộc vào những gì bạn thực sự muốn đo. Dưới đây là một số điều đáng để ghi nhớ:

  • Số liệu rho của Spearman phạt các lỗi ở đầu danh sách có cùng trọng số với sự không phù hợp ở phía dưới, do đó, trong hầu hết các trường hợp, đây không phải là số liệu được sử dụng để đánh giá thứ hạng
  • DCG & NDCG là một trong số ít những số liệu mà đưa vào tài khoản các chức năng tiện ích phi nhị phân, vì vậy bạn có thể mô tả như thế nào hữu ích là một kỷ lục và không cho dù nó rất hữu ích.
  • DCG & NDCG có trọng lượng cố định cho các vị trí, do đó, một tài liệu ở một vị trí nhất định luôn có cùng mức tăng và chiết khấu độc lập với các tài liệu được hiển thị ở trên nó
  • Bạn thường thích NDCG hơn DCG , vì nó bình thường hóa giá trị theo số lượng tài liệu liên quan
  • MAP được coi là một thước đo cổ điển và là một 'chỉ số' cho vấn đề này và nó dường như là một tiêu chuẩn trong lĩnh vực này.
  • (N) DCG phải luôn được tính toán cho một lượng hồ sơ cố định (@k), bởi vì nó có đuôi dài (rất nhiều hồ sơ không liên quan ở cuối bảng xếp hạng rất sai lệch số liệu). Điều này không áp dụng cho MAP .
  • Xếp hạng đối ứng trung bình chỉ đánh dấu vị trí của tài liệu có liên quan đầu tiên, vì vậy nếu bạn quan tâm đến càng nhiều tài liệu có liên quan càng tốt trong danh sách, thì đây không phải là lựa chọn của bạn
  • Kendall's tau chỉ xử lý chức năng tiện ích nhị phân, nó cũng nên được tính @k (tương tự NDCG )

Nguồn tài nguyên quý giá:

Không thể đăng thêm liên kết, vì tài khoản mới :) Nếu có ai có thêm nhận xét hoặc ý tưởng, tôi cũng rất vui khi được nghe họ!


Tôi nghĩ bây giờ bạn có đủ điểm để cập nhật câu trả lời này nếu bạn có nhiều liên kết hơn.
Yash Kumar Atri

4

Trong nhiều trường hợp khi bạn áp dụng các thuật toán xếp hạng (ví dụ: tìm kiếm Google, đề xuất sản phẩm của Amazon), bạn có hàng trăm và hàng ngàn kết quả. Người dùng chỉ muốn xem ở đầu ~ 20 hoặc hơn. Vì vậy, phần còn lại là hoàn toàn không liên quan.

k

Nếu điều này đúng với ứng dụng của bạn, thì điều này có ý nghĩa trực tiếp trên số liệu:

  1. kk
  2. 2k

kk

Độ chính xác phân loại hàng đầu để xếp hạng

Đối với sự thật nền tảng, có thể khó xác định một trật tự. Và nếu bạn chỉ phân biệt có liên quan / không liên quan, thì bạn thực sự đang ở trong một trường hợp phân loại!

Độ chính xác hàng đầu là một số liệu để phân loại. Xem định nghĩa của độ chính xác Top-n là gì? .

độ chính xác top-k= =mức độ thường xuyên có ít nhất một yếu tố có liên quan trong top-k của truy vấn xếp hạng?truy vấn xếp hạng

k

kk[5,20]

k

Chính xác @ k

Chính xác @ k= =số lượng các mục có liên quan trong top-kk[0,1], Cao hơn thì tốt hơn

Những gì nó nói với bạn:

  • nếu nó cao -> Phần lớn những gì bạn hiển thị cho người dùng có liên quan đến họ
  • nếu nó thấp -> Bạn lãng phí thời gian của người dùng. Phần lớn những gì bạn cho họ thấy, không liên quan đến họ

Nhớ lại @ k

Nhớ lại @ k= =số lượng các mục có liên quan trong top-ktổng số mặt hàng liên quan[0,1], Cao hơn thì tốt hơn

Nó có nghĩa là gì

  • Nếu nó cao: Bạn thể hiện những gì bạn có! Bạn cung cấp cho họ tất cả các mặt hàng có liên quan.
  • Nếu nó thấp: So với tổng số lượng các mặt hàng liên quan, k là nhỏ / các mặt hàng có liên quan trong top k là nhỏ. Do đó, việc gọi lại @ k một mình có thể không có ý nghĩa lắm. Nếu nó được kết hợp với độ chính xác cao @ k, thì việc tăng k có thể có ý nghĩa.

2

Gần đây tôi đã phải chọn một số liệu để đánh giá các thuật toán xếp hạng đa nhãn và đến chủ đề này, điều này thực sự hữu ích. Dưới đây là một số bổ sung cho câu trả lời của stpk, rất hữu ích cho việc lựa chọn.

  • MAP có thể được điều chỉnh phù hợp với các vấn đề đa nhãn, với chi phí gần đúng
  • MAP không cần phải được tính toán ở k nhưng phiên bản đa nhãn có thể không được điều chỉnh khi lớp phủ định là tiền thân
  • Cả MAP(N) DCG đều có thể được viết lại dưới dạng trung bình các giá trị liên quan được xếp hạng

Chi tiết

Chúng ta hãy tập trung vào độ chính xác trung bình (AP) vì độ chính xác trung bình (MAP) chỉ là trung bình của các AP trên một số truy vấn. AP được xác định chính xác trên dữ liệu nhị phân là khu vực dưới đường cong thu hồi chính xác, có thể được viết lại dưới dạng trung bình của các phần tử tại mỗi mục dương. (xem bài viết trên wikipedia về MAP ) Một phép tính gần đúng có thể là định nghĩa nó là trung bình của các giới hạn ở mỗimục. Đáng buồn thay, chúng ta mất đi tài sản tốt đẹp mà các ví dụ tiêu cực được xếp hạng ở cuối danh sách không có tác động đến giá trị của AP. . khó truy vấn với một vài ví dụ tích cực.)

Mặt khác, phép tính gần đúng này có đặc tính tốt là nó khái quát tốt cho trường hợp đa nhãn. Thật vậy, trong trường hợp nhị phân, độ chính xác ở vị trí k cũng có thể được hiểu là mức độ liên quan trung bình trước vị trí k, trong đó mức độ liên quan của một ví dụ tích cực là 1 và mức độ liên quan của một ví dụ tiêu cực là 0. Định nghĩa này mở rộng khá tự nhiên trường hợp có nhiều hơn hai mức độ liên quan khác nhau. Trong trường hợp này, AP cũng có thể được định nghĩa là giá trị trung bình của mức trung bình của mức độ phù hợp tại mỗi vị trí.

k

wkMộtP= =1Kđăng nhập(Kk)

K

wkDCG= =1đăng nhập(k+1)

Từ hai biểu thức này, chúng ta có thể suy ra rằng - AP cân các tài liệu từ 1 đến 0. - DCG cân các tài liệu một cách độc lập với tổng số tài liệu.

Trong cả hai trường hợp, nếu có nhiều ví dụ không liên quan hơn nhiều so với các ví dụ có liên quan, tổng trọng số của dương có thể không đáng kể. Đối với AP, cách giải quyết là lấy mẫu âm tính, nhưng tôi không chắc chắn cách chọn tỷ lệ mẫu phụ, cũng như liệu có nên phụ thuộc vào truy vấn hoặc vào số lượng tài liệu dương hay không. Đối với DCG, chúng tôi có thể cắt nó ở k, nhưng loại câu hỏi tương tự phát sinh.

Tôi rất vui khi biết thêm về điều này, nếu có ai ở đây làm việc về chủ đề này.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.