Chính sách giới thiệu trong bài báo của AlphaGo là gì?

Bài báo ở đây .

Chính sách giới thiệu ... là chính sách softmax tuyến tính dựa trên các tính năng dựa trên mẫu cục bộ nhanh, được tính toán tăng dần ...

Tôi không hiểu chính sách giới thiệu là gì và nó liên quan đến mạng lưới chính sách chọn di chuyển như thế nào. Bất kỳ lời giải thích đơn giản hơn?

— Chào thế giới
nguồn

Tờ báo dường như ở đằng sau một

— bức tường

@xeon Tôi không thể giúp điều đó. Tôi có toàn quyền truy cập vào bài báo nhưng tôi không thể tải nó lên đây (luật bản quyền). Có lẽ google xung quanh nếu có ai khác có một bản sao?

— HelloWorld

@xeon airesearch.com/wp-content/uploads/2016/01/...

— dsaxton

Dường như các mạng lưới chính sách xác định một phân bố xác suất so với động thái có thể khi trong game bang . Khi chương trình đang tìm kiếm cây trò chơi, nó sẽ thực hiện theo cách ngẫu nhiên và xác định cách thực hiện tìm kiếm này. Hy vọng là chức năng này sẽ "hướng dẫn" chương trình những bước đi tốt mà một người chơi mạnh có khả năng thực hiện. Điều này có ý nghĩa bởi vì khi bạn tìm kiếm trên cây trò chơi, các nhánh bắt đầu bằng sai lầm sẽ ít liên quan hơn khi đánh giá vị trí bảng hiện tại trước một đối thủ thông minh. $p(a \mid s)$ $a$ $s$ $p$

Khi họ nói rằng chính sách giới thiệu (tôi tin rằng họ đã mượn thuật ngữ "triển khai" từ backgammon) là một hàm softmax tuyến tính, họ đang đề cập đến một khái quát của hàm sigmoid được sử dụng trong hồi quy logistic. Hàm này có dạng

\frac{e^{β_{i}^{T} x}}{\sum_{j = 1}^{k} e^{β_{j}^{T} x}}

$\frac{e^{\beta^T_i x}}{\sum_{j=1}^{k} e^{\beta_j^T x}}$

Trong đó là một vectơ là một hàm của vị trí bảng hiện tại (theo bài báo, softmax tuyến tính chỉ được sử dụng ở bước cuối cùng của mạng chính sách) và là một vectơ trọng số cùng xác định xác suất của chính sách mạng sẽ chọn hành động . $x$ $\beta_i$ $a_i$

— DS
nguồn