Trong các bài báo AlphaGo Zero và AlphaZero của DeepMind , họ mô tả việc thêm tiếng ồn Dirichlet vào xác suất hành động trước đó từ nút gốc (trạng thái bảng) trong Tìm kiếm trên cây Monte Carlo:
Việc thăm dò bổ sung đạt được bằng cách thêm nhiễu Dirichlet vào các xác suất trước trong nút gốc , cụ thể là , trong đó và ; tiếng ồn này đảm bảo rằng tất cả các di chuyển có thể được thử, nhưng tìm kiếm vẫn có thể ghi đè các di chuyển xấu.
(AlphaGo Zero)
Và:
Dirichlet noise đã được thêm vào các xác suất trước đó trong nút gốc; điều này được chia tỷ lệ nghịch với số lần di chuyển hợp pháp gần đúng ở một vị trí điển hình, với giá trị cho cờ vua, shogi và Go tương ứng.
(AlphaZero)
Hai điều tôi không hiểu:
P(s, a)
là một vectơ chiều. Có phải cho phân phối Dirichlet với tham số, mỗi tham số có giá trị không?Tôi chỉ bắt gặp Dirichlet với tư cách là liên hợp trước khi phân phối đa phương thức. Tại sao nó được chọn ở đây?
Đối với ngữ cảnh, P(s, a)
chỉ là một thành phần của phép tính PUCT (cây có độ tin cậy trên đa thức, một biến thể của giới hạn độ tin cậy trên) cho một trạng thái / hành động nhất định. Nó được chia tỷ lệ theo hằng số và số liệu cho số lần hành động đã cho đã được chọn giữa các anh chị em của nó trong MCTS và được thêm vào giá trị hành động ước tính Q(s, a)
:
PUCT(s, a) = Q(s, a) + U(s, a)
.- .