Tôi nghĩ OP đã nhầm lẫn về AlphaGo với alpha-beta. Trong phiên bản alpha-beta, bạn thực sự sử dụng mạng chính sách để giúp cắt tỉa, nhưng không phải ở đây. Một lần nữa, không có cắt tỉa vì thuật toán dựa trên tìm kiếm cây Monte-Carlo (MCTS).
Bất cứ ai nghĩ rằng câu trả lời của tôi quá dài có thể bỏ qua phần tóm tắt, trong đó tôi nêu lý do tại sao hai mạng không dư thừa.
Trong ví dụ sau, tôi sẽ thực hiện một số đơn giản hóa để làm cho ý tưởng của tôi dễ hiểu hơn.
Thí dụ:
Hãy tưởng tượng bạn có một vị trí có hai động thái hợp pháp. Bước đầu tiên là một điểm chết đối với bạn, tuy nhiên, bước thứ hai mang lại cho bạn lợi thế chiến thắng.
- Bước đầu tiên: mất mát bắt buộc cho bạn
- Bước thứ hai: chiến thắng bắt buộc cho bạn
Mạng lưới đánh giá
Giả sử mạng lưới đánh giá Google cung cấp cho bạn là hoàn hảo. Nó có thể đánh giá bất kỳ vị trí lá trong ví dụ của chúng tôi một cách hoàn hảo. Chúng tôi sẽ không thay đổi mạng giá trị của chúng tôi trong ví dụ.
Để đơn giản hóa ví dụ của chúng tôi, hãy giả sử mạng giá trị của chúng tôi cung cấp:
- -1000 cho bất kỳ vị trí lá nào là mất mát cho bạn
- +1000 cho bất kỳ vị trí lá nào là chiến thắng cho bạn
Mạng chính sách
Giả sử Google cung cấp cho bạn hai mạng chính sách. Các xác suất được tạo ra cho vị trí của chúng tôi là:
- Chính sách 1: 0,9 cho di chuyển 1 và 0,1 cho di chuyển 2
- Chính sách 2: 0,2 cho di chuyển 1 và 0,8 cho di chuyển 2.
Lưu ý rằng mạng chính sách đầu tiên của chúng tôi đưa ra xác suất trước không chính xác cho ví dụ của chúng tôi. Nó cho 0,9 cho di chuyển 1, đó là một nước đi mất. Điều này là tốt vì thậm chí Google không thể đào tạo một mạng chính sách hoàn hảo.
Chơi với mạng chính sách đầu tiên
AlphaGo cần tạo một mô phỏng với Monte-Carlo và nó cần chọn di chuyển 1 hoặc 2. Bây giờ, AlphaGo vẽ một biến ngẫu nhiên phân phối thống nhất và nó sẽ chọn:
- Di chuyển 1 nếu số ngẫu nhiên là <= 0,9
- Di chuyển 2 nếu số ngẫu nhiên> 0,9
Vì vậy, AlphaGo có nhiều khả năng chọn động thái thua để mô phỏng (trong lần mô phỏng đầu tiên của chúng tôi). Trong mô phỏng đầu tiên của chúng tôi, chúng tôi cũng sẽ sử dụng mạng giá trị để lấy điểm cho mô phỏng. Trong bài báo, đó là:
Giá trị này sẽ là -1000, vì mô phỏng này sẽ dẫn đến thua lỗ.
Bây giờ, AlphaGo cần tạo mô phỏng thứ hai. Một lần nữa, di chuyển đầu tiên sẽ có nhiều khả năng để chọn. Nhưng cuối cùng, bước thứ hai sẽ được chọn vì:
- Xác suất trước của chúng tôi cho lần di chuyển thứ hai là 0,1, không phải bằng không
- AlphaGo được khuyến khích thử các động tác chưa được khám phá nhiều. Trong bài báo, điều này được thực hiện bởi phương trình này:
Lưu ý rằng đó N
là số lượng di chuyển được tìm kiếm cho di chuyển và nó nằm trong mẫu số. Càng tìm kiếm di chuyển đầu tiên của chúng tôi, u
chức năng càng nhỏ . Do đó, xác suất để chọn nước đi thứ hai của chúng tôi được cải thiện vì AlphaGo thực sự chọn một nước đi theo phương trình này:
Đây là phương trình chính . Hãy nhìn vào nó một cách cẩn thận:
- Nó có một thuật ngữ
P
cho xác suất trước (được đưa ra bởi mạng chính sách)
- Nó có một thuật ngữ
Q
cho điểm đánh giá (được đưa ra bởi mạng giá trị)
Bây giờ, chúng tôi biết di chuyển thứ hai của chúng tôi cuối cùng sẽ được chọn. Khi điều đó xảy ra, mạng giá trị cho +1000. Điều này sẽ tăng lên Q
, điều này làm cho bước thứ hai có nhiều khả năng được chọn trong các mô phỏng sau này.
Cho đủ mô phỏng, số lần di chuyển thứ hai được chọn cho mô phỏng nên nhiều hơn số lần di chuyển đầu tiên được chọn.
Cuối cùng, động thái mà AlphaGo quyết định thực hiện là (trích từ bài báo):
Khi tìm kiếm hoàn tất, thuật toán sẽ chọn di chuyển được truy cập nhiều nhất từ vị trí gốc.
Chơi với mạng chính sách thứ hai
Mạng chính sách thứ hai của chúng tôi sẽ cần ít lần lặp hơn để chọn di chuyển 2 vì xác suất trước được cung cấp bởi mạng chính sách là chính xác ngay từ đầu.
Nhận xét
Mọi thứ ở đây rất giống với Bayesian
phân tích. Chúng tôi bắt đầu với một số xác suất trước (được đưa ra bởi mạng chính sách), sau đó chúng tôi tạo dữ liệu để di chuyển phân phối xác suất (được cung cấp bởi mạng giá trị).
Tóm tắt
- Mạng chính sách được sử dụng để tạo xác suất trước để hướng dẫn những gì di chuyển tìm kiếm Monte-Carlo nên chọn
- Mạng giá trị được sử dụng để tạo dữ liệu để xác thực mạng chính sách. Nếu mạng chính sách xấu, AlphaGo sẽ cần nhiều tài nguyên điện toán hơn để hội tụ (nếu có).
- Bạn có thể nghĩ về nó giống như phân tích Bayes