Dưới đây là một phân tích nhanh dựa trên cơ sở dữ liệu PGN "Million Base". Tôi đã làm điều này trong một chút vội vàng, vì vậy có thể có lỗi trong lập trình hoặc logic của tôi. Xin đừng sử dụng nó cho bất cứ điều gì quá nghiêm trọng. Cập nhật - Lưu ý: Trên thực tế, tôi vừa nhận thấy rằng tôi đã mắc lỗi với bộ dữ liệu và giới hạn ở 1 triệu bản ghi đầu tiên. Tôi sẽ đăng một bản cập nhật khi tôi có thời gian rảnh để chạy lại toàn bộ. Trong khi đó, những con số này vẫn rất thú vị.
Lấy dữ liệu:
Tôi đã nhận được tệp Million Base 1.74 từ URL này , vì trang web top-5000.nl dường như là 404 khi bạn thực sự cố gắng tải xuống. Tệp chỉ chứa hơn 1 triệu trò chơi ở định dạng xuất PGN (có nghĩa là dễ phân tích cú pháp).
Thật không may, hơn 60% số trò chơi không có bất kỳ thông tin xếp hạng nào (tôi đang tìm kiếm thẻ "WhiteELO" và "BlackELO") và thậm chí còn ít hơn có xếp hạng cho cả hai người chơi. Cuối cùng, tôi quyết định lấy cỡ mẫu lớn nhất có thể và tính số lần di chuyển của người chơi nếu biết đánh giá của người đó, bất kể xếp hạng của người chơi khác.
Quá trình:
Các trò chơi được phân tích từng cái một và nếu biết được xếp hạng của người chơi, tất cả các bước di chuyển của chúng cho trò chơi đó sẽ được thêm vào tổng hợp cho nhóm xếp hạng của người chơi. Tôi đã chọn chia các xếp hạng thành các nhóm 100, vì vậy, ví dụ 1600 đến 1699 là một nhóm duy nhất.
Vì Movetext thực tế trong PGN là SAN, tôi đã sử dụng phím tắt sau để đếm các bước di chuyển: Hiệp sĩ (N), Giám mục (B), Rook (R), Nữ hoàng (Q) và Vua (K) đều bắt đầu bằng chữ cái của họ . Castling (OO và OOO) được tính riêng, như một trường hợp đặc biệt. Tất cả các động thái còn lại được tính là di chuyển cầm đồ mà không cần kiểm tra thêm.
Không có dọn dẹp dữ liệu đã được thực hiện. Không có nỗ lực để xác định các ngoại lệ và loại bỏ chúng (ví dụ: các trò chơi cực kỳ ngắn và dài, v.v.). Tôi đã giữ, nhưng không bao gồm trong phân tích sau đây, kết quả từ xếp hạng dưới 1600 - cỡ mẫu cho các trò chơi này dưới 100, dẫn đến kết quả lớn khác nhau. Dữ liệu thô được cung cấp ở cuối bài này.
Một số thiếu sót của thông tin: hiện tại, tôi chỉ thu thập được các tổng số rất cơ bản và cung cấp mức trung bình. Tôi khá chắc chắn rằng nói chung, dữ liệu KHÔNG được phân phối bình thường, nhưng sẽ không thể nói nhiều hơn mà không thực sự xuất ra số lượng thô và chạy chúng thông qua một chương trình thống kê. Tôi có thể làm như vậy, nếu có hứng thú. Hiện tại, điều này có nghĩa là không có khoảng tin cậy hoặc thông tin khác về phân phối số mà các số trung bình đó đại diện. Tôi cũng chưa kiểm tra bộ dữ liệu kéo dài bao nhiêu năm - nếu nó đại diện cho nhiều năm, có thể có ích khi cố gắng sửa lỗi cho sức mạnh tổng thể của trường.
Một số xu hướng:
Một từ về xếp hạng người chơi - các nhóm xếp hạng thường gặp nhất là, theo thứ tự: 2400 đến 2500, 2500 đến 2600 và 2300 đến 2400. Các nhóm xếp hạng này cung cấp 72% số trò chơi được tính.
Nhìn vào kết quả thực tế, thời lượng trò chơi trung bình là một chút ngạc nhiên:
Tất cả các nhóm xếp hạng phụ 2000 đều có các trò chơi ngắn hơn đáng kể so với các nhóm cao hơn. Điều này cũng có thể được giải thích bởi khả năng họ đang chơi các đối thủ mạnh hơn (xem xếp hạng trung bình, ở trên) và rằng họ đã bị đánh bại trong ít lần di chuyển hơn. Điều này dường như đi ngược lại với các trò chơi ngắn hơn một chút được chơi bởi nhóm xếp hạng hàng đầu, mặc dù điều đó có thể được đóng góp cho một cỡ mẫu nhỏ hơn.
Sự khác biệt tương đối lớn về thời lượng trò chơi trung bình có nghĩa là cung cấp tần suất di chuyển một mảnh nhất định, thay vì tổng số lần di chuyển một mảnh, có lẽ là so sánh công bằng hơn. Tính kết quả tần số trong biểu đồ sau:
Các xu hướng sau đây dường như có mặt:
- Tần suất di chuyển hiệp sĩ dường như có xu hướng giảm nhẹ với xếp hạng.
- Giám mục di chuyển xu hướng xuống cho đến khoảng năm 2000, sau đó từ từ xu hướng lên.
- Rook di chuyển xu hướng tăng mạnh ở cùng một điểm, và thường xuyên hơn so với di chuyển của Giám mục trong trò chơi cấp cao.
- Động thái cầm đồ dường như có xu hướng giảm nhẹ với mức tăng. Một ngoại lệ lớn là danh mục hàng đầu, 2800 đến 2900. Điều này đưa chúng ta đến điểm tiếp theo:
- Danh mục xếp hạng hàng đầu cung cấp các ngoại lệ hoặc xu hướng ngược trong khá nhiều phép đo. Điều này có thể được giải thích theo nhiều cách khác nhau - 1) cỡ mẫu khá thấp ở mức 363, không nhỏ, nhưng 10% kích thước mẫu nhỏ nhất tiếp theo được bao gồm. 2) Vì họ đứng đầu các nhóm xếp hạng, họ không bao giờ chơi đối thủ "mạnh" hơn mình. 3) Hoặc đơn giản là ở cấp độ này, lối chơi của họ đã vượt qua các cấp độ bên dưới họ. Tôi đoán sẽ là sự kết hợp của 1) và 2).
- Sự khác biệt trong di chuyển nữ hoàng và di chuyển castling là rất nhỏ mà không có bất kỳ xu hướng thực sự nào, ngoài một xu hướng nhỏ xuống trong cả hai trường hợp.
- Tần suất di chuyển của vua có một số khác biệt lớn nhất. Không có xu hướng rõ ràng là có thể nhìn thấy, và nó dường như thay đổi hướng 3 hoặc 4 lần.
Phân tích sâu hơn
Một số ý tưởng để phân tích trong tương lai:
- Sửa lỗi thống kê cơ bản: Tôi cảm thấy rằng các trò chơi cực kỳ ngắn và dài có lẽ nên được loại trừ. Ngoài ra, việc phân phối số lượng thực tế có thể rất đáng nói.
- Chia tách phân tích hơn nữa cũng có thể mang lại kết quả thú vị. Ví dụ, tôi sẽ muốn biết làm thế nào các tần số cho màu đen và trắng khớp với nhau (Chúng giống nhau hay khác nhau? Tại sao?).
- Phân loại theo sự khác biệt về xếp hạng cũng có thể thú vị, liệu người chơi chơi một đối thủ mạnh hơn nhiều (giả sử, 200 xếp hạng trên họ) chơi với các tần số di chuyển khác nhau? Thật không may, điều này đòi hỏi ELO của cả hai người chơi phải được biết đến, điều này rất hiếm trong bộ dữ liệu này.
- Xu hướng ngắn so với lâu đài cũng có thể thay đổi theo xếp hạng.
- Số liệu thống kê quảng cáo mảnh, một số phân tích cấu trúc nhẹ (ví dụ: tỷ lệ của các con tốt gấp đôi, en passant, ghim, dĩa, được hiển thị theo xếp hạng) có thể là sâu sắc.
- "Bản đồ nhiệt" của vị trí mảnh trên bảng thực tế, được hiển thị theo xếp hạng cũng có thể khá xen kẽ.
Dữ liệu tổng hợp ở định dạng CSV
Đối với những người muốn chơi với dữ liệu, hãy thoải mái.
Phạm vi xếp hạng, Kích thước mẫu, Thời lượng trò chơi trung bình, Di chuyển trung bình, Di chuyển hiệp sĩ trung bình, Di chuyển trung bình, Di chuyển Rook trung bình, Di chuyển nữ hoàng trung bình, Di chuyển vua trung bình, Castling trung bình
1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857