Tại sao hệ thống xếp hạng Elo sử dụng quy tắc cập nhật sai?

Hệ thống xếp hạng Elo sử dụng thuật toán tối thiểu hóa độ dốc của hàm mất mát entropy chéo giữa xác suất dự kiến và quan sát được của một kết quả trong các so sánh được ghép nối. Chúng ta có thể viết các hàm mất chung như

E = - \sum_{n, i} p_{i} L o g (q_{i})

$E=-\sum_{n,i} p_i Log (q_i)$

trong đó tổng được thực hiện trên tất cả các kết quả và tất cả các đối thủ . là tần số quan sát được của sự kiện và tần số dự kiến. $i$ $n$ $p_i$ $_i$ $q_i$

Trong trường hợp chỉ có hai kết quả có thể xảy ra (thắng hoặc thua) và một đối thủ chúng ta có

E = - p L o g (q) - (1 - p) L o g (1 - q)

$E=-p Log (q)-(1-p)Log(1-q)$

Nếu là thứ hạng của người chơi và là thứ hạng của người chơi chúng ta có thể xây dựng xác suất dự kiến là sau đó quy tắc cập nhật giảm dần độ dốc cho biết sử dụng $\pi_i$ $i$ $\pi_j$ $j$

q_{i} = \frac{e^{π_{i}}}{e^{π_{i}} + e^{π_{j}}}

$q_i=\frac{e^{\pi_i}}{e^{\pi_i}+e^{\pi_j}}$

q_{j} = \frac{e^{π_{j}}}{e^{π_{i}} + e^{π_{j}}}

$q_j=\frac{e^{\pi_j}}{e^{\pi_i}+e^{\pi_j}}$

π_{i}^{'} = π_{i} - η (q_{i} - p_{i})

$\pi_i'=\pi_i-\eta (q_i-p_i)$

π_{j}^{'} = π_{j} - η (q_{j} - p_{j})

$\pi_j'=\pi_j-\eta (q_j-p_j)$

Trong đó và là xác suất chiến thắng được mong đợi và được quan sát của người chơi trước người chơi . Đây là quy tắc cập nhật. $q_i$ $p_i$ $i$ $j$ two outcomes

Khi có sự rút thăm, chúng tôi có thể khái quát mô hình trên bao gồm và kết quả thứ ba với xác suất

q (d) = \frac{ν e^{\frac{π_{i} + π_{j}}{2}}}{e^{π_{i}} + e^{π_{j}} + ν e^{\frac{π_{i} + π_{j}}{2}}}

$q(d)=\frac{\nu e^{\frac{\pi_i+\pi_j}{2}}}{e^{\pi_i}+e^{\pi_j}+\nu e^{\frac{\pi_i+\pi_j}{2}}}$

q_{i} (w) = \frac{e^{π_{i}}}{e^{π_{i}} + e^{π_{j}} + ν e^{\frac{π_{i} + π_{j}}{2}}}

$q_i(w)=\frac{ e^{\pi_i}}{e^{\pi_i}+e^{\pi_j}+\nu e^{\frac{\pi_i+\pi_j}{2}}}$

q_{j} (w) = \frac{e^{π_{j}}}{e^{π_{i}} + e^{π_{j}} + ν e^{\frac{π_{i} + π_{j}}{2}}}

$q_j(w)=\frac{ e^{\pi_j}}{e^{\pi_i}+e^{\pi_j}+\nu e^{\frac{\pi_i+\pi_j}{2}}}$

Và chúng ta có thể xây dựng hàm Mất như

E = - p (w) L o g (q (w)) - (1 - p (w) - p (d)) L o g (q (l)) - p (d) L o g (q (d))

$E=-p(w)Log(q(w))-(1-p(w)-p(d))Log(q(l))-p(d)Log(q(d))$

nơi tương ứng là khả năng quan sát của , và và khả năng dự kiến , và . Trong trường hợp sau, quy tắc cập nhật sẽ là $p(w),p(l),p(d)$ winloosedraw $q(w),q(l),q(d)$ winloosedraw

π_{i}^{'} = π_{i} - η (q_{i} (w) + \frac{q_{i} (d)}{2} - p_{i} (w) - \frac{p_{i} (d)}{2})

$\pi_i'=\pi_i-\eta (q_i(w)+\frac{q_i(d)}{2}-p_i(w)-\frac{p_i(d)}{2})$

π_{j}^{'} = π_{j} - η (q_{j} (w) + \frac{q_{j} (d)}{2} - p_{j} (w) - \frac{p_{j} (d)}{2})

$\pi_j'=\pi_j-\eta (q_j(w)+\frac{q_j(d)}{2}-p_j(w)-\frac{p_j(d)}{2})$

Trong đó và là xác suất dự kiến của người chơi sẽ giành chiến thắng và hòa với người chơi . Và trong đó và là xác suất quan sát được của người chơi để giành chiến thắng và hòa với người chơi . Đây là quy tắc cập nhật. $q_j(w)$ $q_j(d)$ $i$ $j$ $p_i(w)$ $p_i(d)$ $i$ $j$ three outcome

Câu hỏi là, tại sao hệ thống xếp hạng Elo sử dụng các two outcomesquy tắc cập nhật ngay cả khi có sự rút thăm?

regression optimization rating

— emanuele
nguồn

Xác suất vẽ, trái ngược với việc có kết quả quyết định, không được chỉ định trong hệ thống Elo. Thay vào đó, một trận hòa được xem xét - cả về hiệu suất dự kiến và kết quả trận đấu - nửa thắng và nửa thua.

Một ví dụ từ trang Elo trên Wikipedia : "Điểm số dự kiến của người chơi là xác suất chiến thắng của anh ta cộng với một nửa xác suất vẽ của anh ta. Do đó, điểm số dự kiến là 0,75 có thể thể hiện 75% cơ hội chiến thắng, 25% cơ hội thua và 0% cơ hội về bản vẽ. Ở một thái cực khác, nó có thể đại diện cho 50% cơ hội chiến thắng, 0% cơ hội thua và 50% cơ hội vẽ. "

Xác suất vẽ, như tôi đã nói, không được chỉ định , và nó dẫn đến một two outcomequy tắc cập nhật đơn giản , , trong đó , vì vậy, sau một trận đấu, (thắng) hoặc (hòa, bằng một nửa thắng) hoặc (thua). $R_A^\prime = R_A + K(S_A - E_A)$ $S_A=1 \cdot (n_w + 0.5 \cdot n_d ) + 0 \cdot (0.5 \cdot n_d + n_l)$ $S_A=1$ $S_A=0.5$ $S_A=0$

Giống như Elo, hệ thống Glicko không mô hình rút thăm nhưng nó tạo ra một bản cập nhật dưới dạng trung bình của một chiến thắng và thua (trên mỗi người chơi). Thay vào đó, trong hệ thống xếp hạng TrueSkill , "các trận hòa được mô hình hóa bằng cách giả sử rằng sự khác biệt về hiệu suất trong một trò chơi cụ thể là nhỏ. Do đó, cơ hội vẽ chỉ phụ thuộc vào sự khác biệt về sức mạnh chơi của hai người chơi. Tuy nhiên, kết quả thực nghiệm trong trò chơi của cờ vua cho thấy các trận hòa có nhiều khả năng giữa những người chơi chuyên nghiệp hơn người mới bắt đầu. Do đó, cơ hội vẽ cũng dường như phụ thuộc vào cấp độ kỹ năng. "

Cách tiếp cận này đòi hỏi phải có mô hình cụ thể khác nhau cho mỗi trò chơi (và TrueSkill được áp dụng cho một vài trò chơi Microsoft Xbox), vì vậy nó phù hợp trong Elo và Glicko (được thiết kế chỉ dành riêng cho cờ vua), và nó không cho rankade , hệ thống xếp hạng đa năng của chúng tôi.

— Tomaso Neri
nguồn

'Điểm số dự kiến của người chơi là xác suất chiến thắng của anh ta cộng với một nửa xác suất vẽ của anh ta.' là chính xác những gì tôi tìm thấy trong công thức trên. Dù sao, trong công thức cập nhật Elo, một nửa xác suất bốc thăm không được chỉ định như bạn đang chỉ ra. Câu hỏi vẫn còn, tại sao trong hệ thống xếp hạng Elo chúng ta không quan tâm đến các trận hòa?

— emanuele

Bạn luôn có thể thể hiện điểm số dự kiến là cơ hội chiến thắng và cơ hội thua cuộc (và không có cơ hội vẽ - xem ví dụ đầu tiên từ Wikipedia). Trong trường hợp này, 'điểm số dự kiến của người chơi là xác suất chiến thắng của anh ta' (và bất cứ điều gì nữa, bởi vì một nửa xác suất vẽ là bằng 0). Sau một trận đấu, kết quả là một chiến thắng, hoặc thua, hoặc một nửa chiến thắng. Ngay cả khi bạn có một trò chơi được phép rút thăm, bạn có thể cập nhật điểm Elo chỉ bằng cách kết hợp thắng và thua, như thể các trận hòa không có cơ hội.

— Tomaso Neri