Mục đích của tiếng ồn Dirichlet trong bài báo AlphaZero

10

Trong các bài báo AlphaGo Zero và AlphaZero của DeepMind , họ mô tả việc thêm tiếng ồn Dirichlet vào xác suất hành động trước đó từ nút gốc (trạng thái bảng) trong Tìm kiếm trên cây Monte Carlo:

Việc thăm dò bổ sung đạt được bằng cách thêm nhiễu Dirichlet vào các xác suất trước trong nút gốc , cụ thể là , trong đó và ; tiếng ồn này đảm bảo rằng tất cả các di chuyển có thể được thử, nhưng tìm kiếm vẫn có thể ghi đè các di chuyển xấu. $s_0$ $P(s, a) = (1−\varepsilon)p_a+ \varepsilon \eta_a$ $\eta \sim \text{Dir}(0.03)$ $\varepsilon = 0.25$

(AlphaGo Zero)

Và:

Dirichlet noise đã được thêm vào các xác suất trước đó trong nút gốc; điều này được chia tỷ lệ nghịch với số lần di chuyển hợp pháp gần đúng ở một vị trí điển hình, với giá trị cho cờ vua, shogi và Go tương ứng. $\text{Dir}(\alpha)$ $\alpha = \{0.3, \; 0.15, \; 0.03\}$

(AlphaZero)

Hai điều tôi không hiểu:

P(s, a)là một vectơ chiều. Có phải cho phân phối Dirichlet với tham số, mỗi tham số có giá trị không? $n$ $\text{Dir}(\alpha)$ $n$ $\alpha$
Tôi chỉ bắt gặp Dirichlet với tư cách là liên hợp trước khi phân phối đa phương thức. Tại sao nó được chọn ở đây?

Đối với ngữ cảnh, P(s, a)chỉ là một thành phần của phép tính PUCT (cây có độ tin cậy trên đa thức, một biến thể của giới hạn độ tin cậy trên) cho một trạng thái / hành động nhất định. Nó được chia tỷ lệ theo hằng số và số liệu cho số lần hành động đã cho đã được chọn giữa các anh chị em của nó trong MCTS và được thêm vào giá trị hành động ước tính Q(s, a):

PUCT(s, a) = Q(s, a) + U(s, a).
$U(s,a) = c_{\text{puct}} P(s,a) \frac{\sqrt{\sum_b N(s,b)}}{1 + N(s,a)}$ .

machine-learning neural-networks dirichlet-distribution

— nhà sư
nguồn

1

Được rồi vì vậy Dir (a) thực sự có nghĩa là Dir (a, a, ...). Đối với <1, điều này sẽ được tập trung gần các vectơ cơ sở tiêu chuẩn của R ^ n (càng nhỏ, càng chặt). Vì vậy Dirichlet (a) giúp (1) giữ tổng các tham số không đổi, (2) tập trung gần các vectơ cơ sở và (3) không thích chúng trong số chúng.

— tu sĩ

6

Câu hỏi 1 rất đơn giản, ở đây là một vectơ lặp lại của giá trị đã cho. (Theo trả lời của Max S.) $\alpha$

Câu hỏi 2 thú vị hơn: Phân phối Dirichlet có cách giải thích sau có liên quan trong ngữ cảnh này: Khi là vectơ quan sát của số lượng kết quả được rút ra từ một số phân phối phân loại (chưa biết) với xác suất kết quả , sau đó là là khả năng là phân phối cơ bản thực tế được cung cấp cho bạn quan sát là số đếm. (Đây cơ bản là định nghĩa của phân phối kép.) $\alpha$ $\pi$ $Dir(\alpha)(\pi)$ $Cat(\pi)$ $\alpha$

Bây giờ P(s,a)ước tính xác suất mà một cầu thủ tốt sẽ chơi atrong s, có nghĩa là các thông số của phân phối phân loại của mình, mà AlphaZero muốn tìm hiểu. Vì vậy, sẽ lấy mẫu ước tính hợp lý cho nếu chúng tôi quan sát thấy một người chơi giỏi di chuyển -times. Nhưng nếu một số , thì tất cả đều có , ngăn cản việc thăm dò. Bằng cách thêm tiếng ồn, họ cho rằng họ đã quan sát thấy mọi chuyển động được phát một số lần nhỏ (ở đây chọn 0,3, 0,15, 0,03). $Dir(\alpha)$ $pi=$ P(s,a) $\alpha$ $\alpha_i=0$ $\pi\sim Dir(\alpha)$ $\pi_i=0$ $\alpha$

Đối với cách họ có các hằng số, tôi đoán là họ cho rằng họ đã quan sát ~ 10 lần chơi ngẫu nhiên trong mỗi trò chơi: Trong cờ vua, cho rằng bạn đã thấy mỗi lần chơi 0,3 lần. Cho rằng có ~ 35 di chuyển có sẵn theo Allis , các tác giả cho rằng bạn đã thấy ~ 10 di chuyển ngẫu nhiên trong mỗi nút. Trong Go, nếu chúng ta giả định trung bình ~ 270 di chuyển hợp pháp (3/4 trên 361 vị trí trên bảng), chúng ta sẽ thấy tương đương với việc quan sát ~ 8 di chuyển ngẫu nhiên. (Tôi không có dữ liệu cho Shogi.) $Dir(0.3)$

— Tomáš Gavenčiak
nguồn

3

Đối với câu hỏi số 1, câu trả lời là có, là một vectơ, nhưng trong trường hợp này, tất cả các giá trị đều giống nhau. Theo wikipedia, đây được gọi là phân phối Dirichlet đối xứng và được sử dụng khi "không có kiến thức trước có lợi cho thành phần này hơn thành phần khác". Trong trường hợp này, điều này có nghĩa là bạn không muốn thêm tiếng ồn vào bất kỳ thành phần cụ thể nào. $\alpha$

Đối với câu hỏi 2, các mẫu được rút ra từ phân phối Dirichlet có thuộc tính là các phần tử sẽ tổng hợp thành 1. Tôi giả sử họ đang sử dụng điều này để đảm bảo rằng sau khi thêm tiếng ồn, và các phần tử vẫn sẽ tổng hợp thành 1.

— Tối đa S.
nguồn

Cảm ơn. Ngoài việc tổng hợp thành một (mà chúng ta cũng có thể thực hiện bằng cách chia tỷ lệ một số bộ phân phối tùy ý), nó thích các vectơ cơ sở tiêu chuẩn. Điều đó có vẻ hữu ích.

— tu sĩ