Làm cách nào để chứng minh rằng xếp hạng Elo hoặc xếp hạng Trang có ý nghĩa đối với tập hợp của tôi?


13

Tôi có một bộ cầu thủ. Họ chơi với nhau (cặp đôi). Các cặp cầu thủ được chọn ngẫu nhiên. Trong bất kỳ trò chơi nào, một người chơi thắng và một người khác thua. Các người chơi chơi với nhau một số lượng trò chơi hạn chế (một số người chơi chơi nhiều trò chơi hơn, một số ít hơn). Vì vậy, tôi có dữ liệu (ai thắng ai và bao nhiêu lần). Bây giờ tôi giả định rằng mọi người chơi có một thứ hạng xác định xác suất chiến thắng.

Tôi muốn kiểm tra xem giả định này có thực sự là sự thật không. Tất nhiên, tôi có thể sử dụng hệ thống xếp hạng Elo hoặc thuật toán PageRank để tính toán xếp hạng cho mọi người chơi. Nhưng bằng cách tính toán xếp hạng tôi không chứng minh rằng chúng (xếp hạng) thực sự tồn tại hoặc chúng có ý nghĩa gì.

Nói cách khác, tôi muốn có một cách để chứng minh (hoặc kiểm tra) rằng người chơi có những điểm mạnh khác nhau. Tôi làm nó như thế nào?

THÊM

Cụ thể hơn, tôi có 8 người chơi và chỉ 18 trò chơi. Vì vậy, có rất nhiều cặp người chơi không chơi với nhau và có rất nhiều cặp chỉ chơi một lần với nhau. Do đó, tôi không thể ước tính khả năng giành chiến thắng cho một cặp người chơi nhất định. Tôi cũng thấy, chẳng hạn, có một người chơi đã thắng 6 lần sau 6 trận. Nhưng có lẽ đó chỉ là sự trùng hợp.


Bạn có muốn kiểm tra giả thuyết khống rằng tất cả người chơi có sức mạnh như nhau, hoặc kiểm tra sự phù hợp của một mô hình sức mạnh người chơi không?
vào

@onestop: Tất cả những người chơi có cùng sức mạnh sẽ rất khó khả thi, phải không? Tại sao bạn đề nghị đây là giả thuyết?
endolith

Câu trả lời:


10

Bạn cần một mô hình xác suất.

Ý tưởng đằng sau một hệ thống xếp hạng là một con số duy nhất thể hiện đầy đủ khả năng của người chơi. Chúng tôi có thể gọi con số này là "sức mạnh" của họ (vì "thứ hạng" đã có nghĩa là một cái gì đó cụ thể trong thống kê). Chúng tôi dự đoán rằng người chơi A sẽ đánh bại người chơi B khi sức mạnh (A) vượt quá sức mạnh (B). Nhưng tuyên bố này quá yếu vì (a) nó không định lượng và (b) nó không tính đến khả năng một người chơi yếu hơn thỉnh thoảng đánh bại một người chơi mạnh hơn. Chúng ta có thể khắc phục cả hai vấn đề bằng cách giả sử xác suất A đánh bại B chỉ phụ thuộc vào sự khác biệt về điểm mạnh của chúng. Nếu điều này là như vậy, thì chúng ta có thể thể hiện lại tất cả các điểm mạnh là cần thiết để sự khác biệt về sức mạnh tương đương với tỷ lệ cược log của một chiến thắng.

Cụ thể, mô hình này là

tôiogTôit(Pr(Một nhịp đập B))= =λMột-λB

ở đâu, theo định nghĩa, là tỷ lệ cược log và tôi đã viết λ Một cho sức mạnh người chơi A, vvtôiogTôit(p)= =đăng nhập(p)-đăng nhập(1-p)λMột

Mô hình này có nhiều tham số như người chơi (nhưng có một mức độ tự do ít hơn, bởi vì nó chỉ có thể xác định các điểm mạnh tương đối , vì vậy chúng tôi sẽ sửa một trong các tham số ở giá trị tùy ý). Nó là một loại mô hình tuyến tính tổng quát (trong họ Binomial, với liên kết logit).

Các thông số có thể được ước tính bởi Khả năng tối đa . Lý thuyết tương tự cung cấp một phương tiện để dựng lên các khoảng tin cậy xung quanh các ước tính tham số và kiểm tra các giả thuyết (chẳng hạn như liệu người chơi mạnh nhất, theo ước tính, có mạnh hơn đáng kể so với người chơi yếu nhất ước tính).

Cụ thể, khả năng của một bộ trò chơi là sản phẩm

Πtất cả các trò chơiđiểm kinh nghiệm(λngười chiến thắng-λkẻ thất bại)1+điểm kinh nghiệm(λngười chiến thắng-λkẻ thất bại).

λ


Trong vấn đề cụ thể này có 18 trò chơi và 7 thông số miễn phí. Nói chung là có quá nhiều tham số: có quá nhiều tính linh hoạt nên các tham số có thể được thay đổi khá tự do mà không thay đổi khả năng tối đa nhiều. Do đó, việc áp dụng máy ML có khả năng chứng minh điều hiển nhiên, đó là có khả năng không có đủ dữ liệu để có niềm tin vào các ước tính sức mạnh.


2
SMột= =điểm kinh nghiệm(λMột)MộtBSMột/(SMột+SB). (3) Nếu một giải đấu vòng tròn đầy đủ được chơi (không phải là trường hợp ở đây), thứ hạng của các điểm mạnh sẽ trùng khớp chính xác với tỷ lệ chiến thắng của mỗi người chơi. (4) Mức độ phù hợp có liên quan đến các luồng trên biểu đồ với người chơi là các nút và trò chơi như các cạnh.
Đức hồng y

(tt) Lester R. Ford, Jr. thậm chí có một bài viết thảo luận về một thuật toán phù hợp dựa trên ý tưởng này trong một Amer. Bài toán hàng tháng từ năm 1957 được viết để vinh danh cha mình.
Đức Hồng Y

4

Nếu bạn muốn kiểm tra giả thuyết khống rằng mỗi người chơi có khả năng thắng hoặc thua như nhau trong mỗi trò chơi, tôi nghĩ bạn muốn kiểm tra tính đối xứng của bảng dự phòng được hình thành bằng cách lập bảng chiến thắng trước kẻ thua cuộc.

Thiết lập dữ liệu để bạn có hai biến số, 'người chiến thắng' và 'kẻ thua cuộc' chứa ID của người chiến thắng và kẻ thua cuộc cho mỗi trò chơi, tức là mỗi 'quan sát' là một trò chơi. Sau đó, bạn có thể xây dựng một bảng dự phòng của người chiến thắng và người thua cuộc. Giả thuyết khống của bạn là bạn mong muốn bảng này đối xứng (trung bình trên các giải đấu lặp đi lặp lại). Trong trường hợp của bạn, bạn sẽ nhận được một bảng 8 × 8 trong đó hầu hết các mục nhập bằng 0 (tương ứng với những người chơi chưa từng gặp), nghĩa là. bảng sẽ rất thưa thớt, do đó, một thử nghiệm 'chính xác' sẽ gần như chắc chắn là cần thiết thay vì dựa vào sự không có triệu chứng.

Một thử nghiệm chính xác như vậy có sẵn trong Stata với lệnh đối xứng . Trong trường hợp này, cú pháp sẽ là:

symmetry winner loser, exact

Không còn nghi ngờ gì nữa, nó cũng được triển khai trong các gói thống kê khác mà tôi ít quen thuộc hơn.


(+1) Thật buồn cười, tôi mới nhận ra rằng lệnh Stata này có thể được sử dụng để kiểm tra truyền / mất cân bằng trong di truyền :) Tôi đã thảo luận về các gói R trong một phản hồi trước đó, stats.stackexchange.com/questions/5171/ .
chl

Thật vậy, TDT là một ứng dụng được thảo luận trong phần trợ giúp Stata mà tôi đã liên kết ở trên. Đó cũng là bối cảnh mà lần đầu tiên tôi bắt gặp bài kiểm tra này. Cảm ơn vì liên kết đến Q trước đó - có vẻ như tôi đã bận rộn với các Q khác khi nó được đăng.
vào

Mặc dù câu hỏi không đề cập đến kiểm tra giả thuyết, sự lựa chọn nhấn mạnh của nó là về tính hay của câu hỏi phù hợp: liệu một sức mạnh số (vô hướng) có mô hình hiệu quả kết quả của các trận đấu giữa những người chơi không?
whuber

1

Bạn đã kiểm tra một số ấn phẩm của Mark Glickman chưa? Những điều có vẻ có liên quan. http://www.glicko.net/

Ngụ ý trong độ lệch chuẩn của xếp hạng là giá trị dự kiến ​​của một trò chơi. (Độ lệch chuẩn này được cố định ở một số cụ thể trong Elo cơ bản và biến trong hệ thống Glicko). Tôi nói giá trị kỳ vọng hơn là xác suất thắng vì hòa. Những điều quan trọng để hiểu về bất kỳ xếp hạng Elo nào bạn có là giả định phân phối cơ bản (ví dụ bình thường hoặc logistic) và độ lệch chuẩn được giả định.

Phiên bản logistic của các công thức Elo cho thấy giá trị dự kiến ​​của chênh lệch xếp hạng là 110 điểm là 0,653, ví dụ người chơi A với 1330 và người chơi B với 1220.

http://en.wikipedia.org/wiki/Elo_rating_system (OK, đó là tài liệu tham khảo Wikipedia nhưng tôi đã dành quá nhiều thời gian cho câu trả lời này.)

Vì vậy, bây giờ chúng tôi có một giá trị dự kiến ​​cho mỗi trò chơi dựa trên xếp hạng của từng người chơi và kết quả dựa trên trò chơi.

Tại thời điểm này, điều tiếp theo tôi sẽ làm là kiểm tra đồ họa này bằng cách sắp xếp các khoảng trống từ thấp đến cao và tổng hợp các kết quả thực tế và dự kiến. Vì vậy, trong 5 trò chơi đầu tiên, chúng tôi có thể có tổng điểm là 2 và điểm dự kiến ​​là 1,5. Trong 10 trò chơi đầu tiên, chúng tôi có thể có tổng số điểm là 8 và điểm dự kiến ​​là 8,8, v.v.

Bằng cách vẽ đồ thị hai dòng này tích lũy (như bạn sẽ làm cho phép thử Kolmogorov - Smirnov), bạn có thể xem liệu các giá trị tích lũy dự kiến ​​và thực tế có theo dõi tốt hay xấu. Có khả năng người khác có thể cung cấp một bài kiểm tra chính thức hơn.


1

Có lẽ ví dụ nổi tiếng nhất để kiểm tra mức độ chính xác của phương pháp ước tính trong hệ thống xếp hạng là Xếp hạng cờ vua - Elo so với phần còn lại của cuộc thi Thế giới trên Kaggle , có cấu trúc như sau:

Các đối thủ cạnh tranh đào tạo hệ thống xếp hạng của họ bằng cách sử dụng bộ dữ liệu đào tạo với hơn 65.000 kết quả gần đây cho 8.631 người chơi hàng đầu. Những người tham gia sau đó sử dụng phương pháp của họ để dự đoán kết quả của hơn 7,809 trò chơi.

Người chiến thắng là Elo ++ .

Nó có vẻ là một kế hoạch kiểm tra tốt cho nhu cầu của bạn, về mặt lý thuyết, ngay cả khi 18 trận đấu không phải là một cơ sở thử nghiệm tốt. Bạn thậm chí có thể kiểm tra sự khác biệt giữa kết quả cho các thuật toán khác nhau (đây là một sự so sánh giữa rankade , hệ thống xếp hạng của chúng tôi, và được biết đến nhất, bao gồm Elo , GlickoTrueskill ).


0

H0

Một thử nghiệm đơn giản cho việc này sẽ là tính toán tỷ lệ số lần người chơi có nhiều trò chơi trước đó chơi sẽ giành chiến thắng và so sánh với chức năng phân phối tích lũy nhị thức. Điều đó sẽ cho thấy sự tồn tại của một số loại hiệu ứng.

Nếu bạn quan tâm đến chất lượng của hệ thống xếp hạng Elo cho trò chơi của mình, một phương pháp đơn giản sẽ là chạy một giá trị chéo 10 lần về hiệu suất dự đoán của mô hình Elo (thực sự giả định rằng kết quả không phải là iid, nhưng tôi sẽ bỏ qua điều đó) và so sánh nó với một đồng xu lật.


Để cụ thể hơn. Tôi có 8 người chơi và chỉ có 18 trò chơi. Vì vậy, có rất nhiều cặp người chơi không chơi với nhau và có rất nhiều cặp chỉ chơi với nhau. Kết quả là, tôi không thể ước tính xác suất chiến thắng cho một cặp người chơi nhất định. Tôi cũng thấy, ví dụ có một người chơi đã thắng 6 lần sau 6 trận. Nhưng có thể đó chỉ là sự trùng hợp.
La Mã
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.