Hệ thống xếp hạng Glicko-2: Lỗi hay khai thác?


13

Ban đầu tôi đã đăng bài này trên StackOverflow vì nó có thể là một lỗi trong quá trình triển khai, nhưng một số gợi ý tôi đã đăng lên toán học. Tôi chỉ tìm thấy stackexchange này, và tôi nghĩ ai tốt hơn? Một số bạn có thể biết dơi thay vì điều này có vẻ chính xác hoặc không, mà không cần phải gỡ lỗi. Bất kỳ liên kết đến máy tính trực tuyến hoặc phương pháp đánh giá thay thế đều được hoan nghênh.


Glicko-2 là một hệ thống đánh giá được sử dụng trong cờ vua, nhưng có thể được sử dụng trong nhiều tình huống khác. Glicko-2 là một cải tiến trên Glicko-1, giải quyết các vấn đề về xếp hạng ELO cũ.

Điều khiến Glicko-2 trở nên đặc biệt so với phiên bản 1 là nó kết hợp độ lệch xếp hạng (RD) cao hơn khi ai đó không hoạt động lâu hơn. Nó thực hiện điều này với khái niệm hằng số hệ thống liên quan đến thời gian / xếp hạng thời gian.

Một ví dụ viết lên từ tác giả được tìm thấy ở đây: http://www.glicko.net/glicko/glicko2.pdf .
Trong tài liệu này, ông giải thích:

Hệ thống Glicko-2 hoạt động tốt nhất khi số lượng trò chơi trong khoảng thời gian xếp hạng từ trung bình đến lớn, trung bình ít nhất 10-15 trò chơi cho mỗi người chơi trong một khoảng thời gian xếp hạng. Khoảng thời gian cho một khoảng thời gian đánh giá là theo quyết định của quản trị viên.

Giả định rằng một nhóm người chơi cờ đang hoạt động trung bình chơi 10-15 trận trong khoảng thời gian 1 tháng, sau đó quản trị viên sẽ cập nhật xếp hạng vào cuối mỗi tháng.


Tôi cần một triển khai PHP của hệ thống xếp hạng Glicko-2 và đã tìm thấy những điều sau đây:

Triển khai JavaScript Glicko-2

  • JavaScript có một lỗi nhỏ, trong đó không để nó khớp với ví dụ viết kỹ thuật, tác giả thấy nó đủ gần và không bận tâm để gỡ lỗi.

Thực hiện PHP Glicko-2

  • Việc triển khai PHP gặp rất nhiều lỗi, nhưng điều đó không rõ ràng trừ khi bạn thực hiện nhiều hơn một giai đoạn xếp hạng (điều mà kỹ thuật viết không bao giờ cho thấy các giá trị mong đợi của)

Máy tính Glicko-2 trong Excel

  • Cuối cùng, máy tính Excel dường như không có lỗi và chuyên nghiệp nhất, được thực hiện bởi một người nào đó trong cộng đồng cờ vua. Khi lỗi JavaScript được giải quyết, Máy tính JavaScript và Excel khớp rất chặt chẽ với nhau (mặc dù không hoàn hảo, có thể nằm trong lỗi làm tròn)

Tôi đã sửa các lỗi (và gửi các vấn đề / bản vá cho các tác giả) Tôi có thể tìm thấy trên các phiên bản PHP và JavaScript để khớp với Máy tính Excel


Bây giờ tôi tin tưởng 99% rằng tôi có một triển khai Glicko-2 chính xác (giữa 3 người trong số họ) để phân tích và đó là khi tôi bắt gặp một điều kỳ lạ, và chủ đề của cuộc thảo luận này.

Đưa ra mặc định được đề xuất cho Glicko-2 cho một người chơi mới:

Rating:      1500
RD:           350
Volatility:  0.06

Nếu bạn phải đối mặt với một đối thủ trung bình là xếp hạng 1378 và RD 99 ( Nguồn ) chỉ một lần sau mỗi giai đoạn xếp hạng (1 tháng) trong 12 giai đoạn tiếp theo (1 năm), bạn sẽ tích lũy được xếp hạng Hạng A (1800-1999) giả định là 1852 trong thực tế, bạn chỉ đánh bại 12 người chơi được xếp hạng trung bình trong khoảng thời gian 12 tháng.

Month   Rating      RD      Volatility      Class
1       1625        259     0.059999        National Class B
2       1682        225     0.059998        〃
3       1718        205     0.059997        〃
6       1784        174     0.059994        〃
12      1852        148     0.059988        National Class A
24      1922        127     0.059976        〃

Nếu bạn phải đối mặt với 2 đối thủ trung bình mỗi kỳ đánh giá, bạn có thể vào Hạng A quốc gia khoảng 4-5 tháng, chỉ đối mặt với 8-10 đối thủ trung bình.

Month   Rating      RD      Volatility      Class
1       1672        215     0.059999        National Class B
2       1733        183     0.059997        〃
3       1770        166     0.059995        〃
4       1797        154     0.059993        〃
5       1819        146     0.059992        National Class A
6       1836        140     0.059991        〃


Là những giả định chính xác? Có một lỗi trong máy tính của tôi?

Nếu đó không phải là một lỗi, một số cách để chống lại điều này bên cạnh:

  • Xem xét "xếp hạng thực" là giới hạn dưới của độ lệch (Xếp hạng - RD)
  • Không hiển thị xếp hạng của người dùng không hoạt động
  • Không hiển thị người dùng có ít hơn N trò chơi


Câu trả lời:


9

Tôi đã làm việc về việc triển khai Scala vài tháng trước, mặc dù nó hơi chưa được xử lý - tôi nên quay lại để hoàn thành nó. Tôi ít nhất đã nhận được một số kết quả hợp lý từ nó.

Nếu bạn thắng mọi trò chơi bạn chơi, vâng, đánh giá của bạn sẽ tăng lên khá cao ngay cả khi bạn chỉ chơi với những người chơi được xếp hạng thấp. Xác suất mà bạn sẽ giành chiến thắng trong mọi trò chơi trước một đối thủ như vậy có lẽ là về những gì một người chơi hạng A sẽ đạt được (mặc dù có lẽ nó hơi bị thổi phồng do RD tương đối cao, vẫn còn).

Theo tôi, cách tốt nhất để chống lại, là không coi ai đó có RD trên một số tiền nhất định là xếp hạng ổn định - tức là coi đó là "tạm thời". Ngoài ra, để thực sự đạt được một danh hiệu, ít nhất là trong USCF, họ có một hệ thống định mức, trong đó bạn phải thực hiện ở một mức độ nhất định trong một giải đấu gồm 4 trận trở lên (tôi tin là 4 lần), điều đó có khả năng chơi với một ~ 1378 cho toàn bộ giải đấu [bốn lần] rất khó xảy ra.

Là mục tiêu của bạn để sử dụng này cho cờ vua? Trường hợp sử dụng của bạn là gì?

Cập nhật: FICS xử lý nó bằng cách chỉ xem xét những người có RD <80 hoạt động. (Họ sử dụng Glicko-1, tôi tin là vậy.) Http://www.freechess.org/Help/ficsfaq.html#Q005.003

Và nhân tiện, Glicko-1 cũng sử dụng phân rã RD / thời gian. Cải tiến chính của Glicko-2 là yếu tố "biến động", cho phép những người có kết quả thất thường hoặc kết quả ổn định được tính toán rất khác nhau. Tôi nghĩ rằng đó là một điều chỉnh rất nhỏ đối với Glicko-1, điều này gây ra sự tính toán thêm đáng kể - nhưng cũng giống như bạn, tôi vẫn quan tâm đến việc tính toán nó. Tôi thực sự đã yêu cầu Glickman cho một số datapoint bổ sung để thử nghiệm, nhưng anh ấy quá bận rộn để cung cấp chúng vào thời điểm đó.


FYI, một danh hiệu cấp độ USCF yêu cầu kiếm được một chỉ tiêu trong 5 giải đấu.
DM
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.