Dường như các mạng lưới chính sách xác định một phân bố xác suất so với động thái có thể khi trong game bang . Khi chương trình đang tìm kiếm cây trò chơi, nó sẽ thực hiện theo cách ngẫu nhiên và xác định cách thực hiện tìm kiếm này. Hy vọng là chức năng này sẽ "hướng dẫn" chương trình những bước đi tốt mà một người chơi mạnh có khả năng thực hiện. Điều này có ý nghĩa bởi vì khi bạn tìm kiếm trên cây trò chơi, các nhánh bắt đầu bằng sai lầm sẽ ít liên quan hơn khi đánh giá vị trí bảng hiện tại trước một đối thủ thông minh.p ( một | s )mộtSp
Khi họ nói rằng chính sách giới thiệu (tôi tin rằng họ đã mượn thuật ngữ "triển khai" từ backgammon) là một hàm softmax tuyến tính, họ đang đề cập đến một khái quát của hàm sigmoid được sử dụng trong hồi quy logistic. Hàm này có dạng
eβTTôixΣkj = 1eβTjx
Trong đó là một vectơ là một hàm của vị trí bảng hiện tại (theo bài báo, softmax tuyến tính chỉ được sử dụng ở bước cuối cùng của mạng chính sách) và là một vectơ trọng số cùng xác định xác suất của chính sách mạng sẽ chọn hành động .xβTôimộtTôi