Làm thế nào chính xác là xếp hạng động cơ cờ vua?


8

Trong ánh sáng của giải đấu TCEC đang diễn ra, tôi đã nghĩ, làm thế nào để họ đưa ra xếp hạng của các máy tính này? Có lẽ, một công cụ cờ vua được xếp hạng 2000 sẽ mong đợi số điểm khoảng 0,5 so với một người được xếp hạng 2000. Điều này có thể giúp dễ dàng xác minh xem các công cụ cờ vua có thực sự xấp xỉ mức đánh giá mà họ nói hay không. Tuy nhiên, đây là vấn đề đối với các chương trình được đánh giá cao hơn như komodo, người được cho là khoảng năm 3250. Rõ ràng, không có con người nào chơi ở cấp độ này. Hơn nữa, thậm chí 2800 máy tính được xếp hạng không chơi với con người (tôi nghi ngờ Magnus chơi với máy tính để giúp các nhà phát triển xác định xếp hạng của họ). Thậm chí còn đáng ngờ nếu động cơ chơi với các đại kiện tướng để xác định sức mạnh của họ. Vì vậy, tôi nghi ngờ rằng những xếp hạng động cơ này được xác định bởi các động cơ chơi đối thủ có sức mạnh tương tự từ lâu, và hầu hết các đánh giá đến từ các trò chơi động cơ và động cơ những ngày này. Nhưng nếu điều này là đúng, tôi sẽ không hy vọng rằng xếp hạng động cơ là chính xác so với thang đo elo của con người. Có cách nào họ kiểm tra xếp hạng động cơ là chính xác không?


1
Nếu bạn có thể có được một con người được đánh giá đáng tin cậy, chơi một trận đấu với một máy tính yếu, để "hiệu chỉnh" elo máy tính, thì sau đó bạn có thể sử dụng động cơ đó so với động cơ khác cao hơn 300 điểm để hiệu chỉnh cái đó và đi cầu thang như thế, 300 elo điểm mỗi lần để làm cho nó dễ dàng về mặt thống kê (để không phải tất cả đều là chiến thắng, bởi vì sau đó làm thế nào để bạn biết nó tốt hơn bao nhiêu điểm) tôi nghĩ rằng nó sẽ khả thi với ít nhất là elo động cơ mạnh mẽ.
Santropedro

Câu trả lời:


5

Xếp hạng động cơ cờ vua máy tính không liên quan đến danh sách xếp hạng FIDE.

Ví dụ: MicroMaxđộng cơ có xếp hạng khoảng 1950 trên CCRL:

http://www.computerchess.org.uk/ccrl/4040/

Tôi phân phối một ứng dụng iOS ( ChessMini ) cho công cụ này. Tôi đã viết trên trang mô tả ứng dụng:

Công cụ này có xếp hạng Elo 2000 trong Danh sách xếp hạng cờ vua máy tính và mạnh hơn 70% người chơi cờ người.

Điều này chỉ đúng nếu xếp hạng cờ CCRL gần đúng với danh sách xếp hạng FIDE.

Thật không may, tôi đã nhận được một số người dùng phàn nàn rằng họ có thể đánh bại ứng dụng một cách thuyết phục mặc dù xếp hạng FIDE của họ thấp hơn nhiều so với năm 1900. Thực tế, tôi có xếp hạng FIDE khoảng 2000 nhưng công cụ MicroMax chưa bao giờ đánh bại tôi. Tôi nghĩ rằng đánh giá "thực" trên thang điểm FIDE là 1300-1400.

Hãy quên đi danh sách xếp hạng của con người, chỉ cần nhìn vào thứ hạng tương đối .

Xếp hạng cờ vua máy tính là chính xác phi thường (nhưng không có mối quan hệ với FIDE) vì kích thước mẫu chỉ bị giới hạn bởi khả năng xử lý của bạn. Bạn bắt đầu một giải đấu động cơ, để máy tính chạy và đi ngủ ... Đó là 24 giờ cờ như TCEC. Bạn chơi càng nhiều động cơ phù hợp với máy tính của bạn có thể đủ khả năng.

Động cơ máy tính được đánh giá bằng cách chơi các động cơ khác. Không có sự can thiệp của con người. Không có ông chủ. Bất cứ ai có máy tính xách tay đều có thể làm điều đó:

  • Tải xuống Arena hoặc Cutechess
  • Tải về công cụ yêu thích của bạn
  • Bắt đầu một giải đấu động cơ

Đó là nó, nó rất đơn giản! Bạn sẽ nhận được xếp hạng ước tính cho động cơ của bạn.


1
Vẫn nên có một số mối quan hệ gần đúng giữa hai danh sách không? (Thật khó để tìm thấy mối quan hệ như vậy với một vài trò chơi được chơi giữa người và máy tính, nhưng nên có một trò chơi.)
TMM

@TMM Có lẽ. Nếu có một và nó có thể được chứng minh thống kê (một cái gì đó giống như tương quan), xin vui lòng thử câu trả lời của bạn.
SmallChess

Câu trả lời của bạn cung cấp một giai thoại thú vị và có giá trị ở mức độ đó, nhưng dường như không có thẩm quyền trong vấn đề cụ thể mà OP nêu ra. Câu trả lời của bạn là câu trả lời của bạn, vì vậy tôi không nghĩ rằng bạn nên thay đổi nó trừ khi bạn chỉ muốn; nhưng tôi vẫn tin rằng câu trả lời sẽ chính xác hơn nếu nó bắt đầu, "Tôi không biết câu trả lời cho câu hỏi của bạn, nhưng đây là một giai thoại soi sáng." Do đó, theo quan điểm của tôi, câu hỏi vẫn còn mở và vẫn muốn có một câu trả lời thích hợp.
thb
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.