Làm thế nào để so sánh hai thuật toán xếp hạng?

12

Tôi muốn so sánh hai thuật toán xếp hạng. Trong các thuật toán này, khách hàng chỉ định một số điều kiện trong tìm kiếm của mình. Theo yêu cầu của khách hàng, các thuật toán này sẽ chỉ định điểm cho từng mục trong cơ sở dữ liệu và truy xuất các mục có điểm cao nhất.

Tôi đã đọc các chủ đề khác nhau liên quan đến câu hỏi của tôi trong trang web này và tìm kiếm trên mạng. Theo các tìm kiếm của tôi, bài viết phù hợp nhất giải thích về một số số liệu để so sánh các thuật toán xếp hạng, là: Brian McFee và Gert RG Lanckriet, Số liệu học để xếp hạng, ICML 2010 ( https://bmcfee.github.io/ con / mlr .pdf ). Tôi nghĩ pre @ k, MAP, MRR và NDCG, là những số liệu tốt để sử dụng, nhưng tôi có một vấn đề:

Thuật toán của tôi sắp xếp kết quả, vì vậy mục đầu tiên trong danh sách kết quả của tôi là mục tốt nhất có điểm cao nhất, kết quả thứ hai có điểm cao thứ hai, v.v. Tôi giới hạn thuật toán tìm kiếm của tôi, ví dụ như tìm 5 kết quả tốt nhất. Kết quả là 5 mục hàng đầu nhất. Vì vậy, độ chính xác sẽ là 1. Khi tôi giới hạn tìm kiếm của mình để tìm kết quả tốt nhất, Nó sẽ tìm thấy kết quả tốt nhất. Một lần nữa, độ chính xác sẽ là 1. Nhưng vấn đề là ở chỗ, không thể chấp nhận được đối với những người nhìn thấy kết quả này.

Tôi có thể làm gì? Làm thế nào tôi có thể so sánh các thuật toán này và hiển thị một thuật toán tốt hơn thuật toán kia?

machine-learning precision-recall average-precision

— MK
nguồn

5

Chiết khấu tích lũy (DCG) là một trong những số liệu phổ biến nhất được sử dụng để đánh giá xếp hạng bởi bất kỳ công cụ tìm kiếm nào. Đó là thước đo chất lượng xếp hạng. Trong truy xuất thông tin, nó thường được sử dụng để đo lường hiệu quả của công cụ tìm kiếm web.

Nó dựa trên các giả định sau:

Các tài liệu có liên quan cao sẽ hữu ích hơn nếu xuất hiện sớm hơn trong kết quả tìm kiếm.
Các tài liệu có liên quan cao sẽ hữu ích hơn các tài liệu có liên quan bên lề tốt hơn các tài liệu không liên quan.

Công thức cho DCG như sau:

\begin{matrix} (1) & D C G_{p} = \sum_{i = 1}^{p} \frac{r e l_{i}}{l o g_{2} (i + 1)} = r e l_{1} + \sum_{i = 2}^{p} \frac{r e l_{i}}{l o g_{2} (i + 1)} \end{matrix}

$DCG_p = \sum_{i=1}^p \frac {rel_i} {log_2 (i+1)} = rel_1 + \sum_{i=2}^p \frac {rel_i} {log_2 (i+1)} \tag{1}$

Ở đâu:

i là vị trí trả về của một tài liệu trong kết quả tìm kiếm.
$rel_i$ là mức độ phù hợp của tài liệu
tổng cộng trên p (số kết quả được trả về) do đó, tích lũy tích lũy mang lại số liệu hiệu suất của kết quả được trả về.

DCG có nguồn gốc từ CG (Tích lũy tăng) , được đưa ra bởi:

\begin{matrix} (2) & C G_{p} = \sum_{i = 1}^{p} r e l_{i} \end{matrix}

$CG_p = \sum_{i=1}^p rel_i \tag{2}$

Từ (2) có thể thấy rằng không thay đổi để thay đổi thứ tự kết quả. Do đó, để khắc phục vấn đề này DCG đã được giới thiệu. Có một hình thức khác của DCG, phổ biến để đặt trọng tâm rất cao vào việc truy xuất các tài liệu. Phiên bản DCG này được cung cấp bởi: $CG_p$

\begin{matrix} (3) & D C G_{p} = \sum_{i = 1}^{p} \frac{2^{r e l_{i}} - 1}{l o g_{2} (i + 1)} \end{matrix}

$DCG_p = \sum_{i=1}^p \frac {2^{rel_i} - 1} {log_2 (i+1)} \tag{3}$

Một nhược điểm rõ ràng của phương trình DCG được trình bày trong (1) và (3) là các thuật toán trả về một số kết quả khác nhau không thể được so sánh một cách hiệu quả. Điều này là do giá trị của càng cao thì giá trị của sẽ càng cao . $p$ $DCG_p$

Để khắc phục vấn đề này, DCG (nDCG) được chuẩn hóa được đề xuất. Nó được đưa ra bởi,

n D C G_{p} = \frac{D C G_{p}}{I D C G_{p}}

$nDCG_p = \frac {DCG_p} {IDCG_p}$

nơi là lý tưởng , được đưa ra bởi, $IDCG_p$ $DCG_p$

I D C G_{p} = \sum_{i = 1}^{| R E L |} \frac{2^{r e l_{i}} - 1}{l o g_{2} (i + 1)}

$IDCG_p = \sum_{i=1}^{|REL|} \frac {2^{rel_i} - 1} {log_2 (i+1)}$

Ở đâu | LIÊN | là danh sách các tài liệu được sắp xếp theo mức độ phù hợp trong kho văn bản cho đến vị trí p.

Đối với một thuật toán xếp hạng hoàn hảo,

D C G_{p} = I D C G_{p}

$DCG_p = IDCG_p$

Vì các giá trị của nDCG được chia tỷ lệ trong phạm vi [0,1], nên có thể so sánh truy vấn chéo bằng cách sử dụng các số liệu này.

Hạn chế: 1. nDCG không xử phạt việc truy xuất tài liệu xấu trong kết quả. Điều này có thể khắc phục bằng cách điều chỉnh các giá trị liên quan được quy cho các tài liệu. 2. nDCG không xử phạt các tài liệu bị thiếu. Điều này có thể được khắc phục bằng cách sửa kích thước truy xuất và sử dụng điểm tối thiểu cho các tài liệu bị thiếu.

Tham khảo điều này để xem các tính toán ví dụ của nDCG.

Tài liệu tham khảo

— m1cro1ce
nguồn

0

Tài nguyên hữu ích:

http://www.cs.utexas.edu/~mooney/ir-cference/slides/Evalval.ppt
http://www.nii.ac.jp/TechReports/05-014E.pdf
http://www.stanford.edu/group/cs276/handouts/EvalvalNew-handout-6-per.pdf
http://hal.archives-ouvertes.fr/docs/00/72/67/60/PDF/07-busa-fekete.pdf
Học cách xếp hạng để truy xuất thông tin (Tie-Yan Liu)

— Đổi mới
nguồn