Chức năng đánh giá của một công cụ cờ vua, cho dù được khởi tạo như một mạng thần kinh hoặc mã rõ ràng, luôn có thể gán giá trị cho bất kỳ vị trí bảng nào. Nếu bạn cho nó một vị trí bảng, thậm chí những vị trí vô lý sẽ không bao giờ xảy ra trong một trò chơi, nó sẽ có thể phun ra một con số thể hiện mức độ thuận lợi của nó đối với người chơi này hay người chơi khác. Vì số lượng vị trí bàn cờ trong cờ vua là khổng lồ không thể điều khiển được, nên việc đào tạo chỉ có thể xảy ra trên một mẫu vô hạn của cây trò chơi. Công cụ không chỉ đơn giản là nhớ lại các giá trị được tính toán trước đó của các vị trí bảng, mà đang thực hiện các tính toán dựa trên sự sắp xếp của các mảnh. Đối với một ví dụ phi mạng lưới thần kinh, một phần trong đánh giá của một cỗ máy cờ vua có thể là cộng giá trị của mỗi quân cờ về phía nó và trừ đi tổng giá trị của quân cờ đối thủ. Sau đó,
Khi động cơ chưa được huấn luyện, các giá trị được gán cho một vị trí cũng có thể là ngẫu nhiên do các tham số của hàm đánh giá bắt đầu bằng (thường) các giá trị ngẫu nhiên. Mục tiêu của giai đoạn huấn luyện là điều chỉnh các thông số của động cơ để nó gán điểm cao cho các vị trí trên bảng là trạng thái chiến thắng có thể xảy ra cho người chơi.
Từ bài báo trên AlphaZero (trang 3):
Các tham số của mạng nơ ron sâu trong AlphaZero được đào tạo bằng cách học tăng cường tự chơi, bắt đầu từ các tham số khởi tạo ngẫu nhiên. Các trò chơi được chơi bằng cách chọn di chuyển cho cả hai người chơi bằng MCTS. Vào cuối trò chơi, vị trí đầu cuối được ghi theo quy tắc của trò chơi để tính kết quả trò chơi: −1 cho một trận thua, 0 cho một trận hòa và +1 cho một chiến thắng. Các tham số mạng thần kinh được cập nhật để giảm thiểu lỗi giữa kết quả dự đoán và kết quả trò chơi và để tối đa hóa sự giống nhau của vectơ chính sách với xác suất tìm kiếm.
[ký hiệu toán học bị xóa khỏi trích dẫn]
Tóm lại, trong quá trình huấn luyện, AlphaZero đã chơi một trò chơi với chính nó. Khi trò chơi kết thúc, kết quả của trò chơi và độ chính xác của dự đoán của nó về cách trò chơi sẽ được sử dụng để điều chỉnh mạng lưới thần kinh để nó chính xác hơn trong trò chơi tiếp theo. AlphaZero không giữ kỷ lục về mọi vị trí mà nó đã thấy, nhưng đang tự điều chỉnh để có thể đánh giá chính xác hơn bất kỳ bảng nào mà nó nhìn thấy trong tương lai.