Gần đây tôi đã đọc rất nhiều về TD-Gammon khi tôi đang khám phá các tùy chọn cho AI trong một trò chơi video mà tôi đang thực hiện. Trò chơi video là một loại trò chơi theo vị trí theo lượt, tức là "đơn vị", hoặc vị trí của trò chơi, sẽ ảnh hưởng lớn đến tính hữu dụng của nó trong trạng thái bảng đó.
Để thực hiện theo cách của tôi, tôi nghĩ rằng việc triển khai Mạng thần kinh cho một vài trò chơi khác nhau là điều khôn ngoan trước tiên.
Ý tưởng tôi thích là mã hóa trạng thái bảng cho Mạng nơ-ron bằng một nơ-ron đầu ra duy nhất mang lại cho trạng thái bảng đó sức mạnh tương đối so với các trạng thái bảng khác. Theo tôi hiểu, đây là cách TD-Gammon hoạt động.
Tuy nhiên, khi tôi xem mã và ví dụ / hướng dẫn của người khác, dường như có rất nhiều sự khác biệt trong cách họ đại diện cho trạng thái hội đồng quản trị. Ngay cả đối với một cái gì đó đơn giản như tic-tac-toe.
Vì thế; cụ thể cho tic-tac-toe, cái nào tốt hơn, hay đại diện chính xác cho trạng thái bảng là gì? Tôi đã từng thấy:
- 9 nơ ron đầu vào, một cho mỗi ô vuông. A
0
chỉ ra một không gian tự do,-1
đối thủ và1
chính bạn. - 9 nơ ron đầu vào, nhưng sử dụng các giá trị khác nhau như
0
cho đối thủ,0.5
miễn phí và1
cho chính bạn? - Bạn có thể sử dụng các giá trị lớn hơn? LIke
0
,1
và2
? - 27 tế bào thần kinh đầu vào. 3 đầu tiên là vuông 1, 3 tiếp theo là vuông 2, v.v ... Mọi nơron đều
1
hoặc0
. Đầu tiên của bộ ba cho biết hình vuông này có miễn phí hay không; cái thứ hai cho biết hình vuông có bị đối thủ của bạn chiếm giữ hay không. Cuối cùng, chỉ có một trong 3 tế bào thần kinh sẽ có a1
, hai cái còn lại sẽ có a0
. - 18 nơ ron đầu vào. Cái đầu tiên
1
dành cho người chơi X, cái thứ hai1
dành cho người chơi O và cả hai đều0
để trống
Sau đó; Khi phân nhánh vào các trò chơi mà các khả năng của các quân cờ cụ thể xuất hiện, như trong cờ vua, bạn sẽ thể hiện điều này như thế nào?
Nó sẽ đơn giản như sử dụng các giá trị đầu vào cao hơn cho các phần có giá trị hơn? Tức là -20
cho một nữ hoàng đối thủ và +20
cho nữ hoàng của riêng bạn? Hoặc bạn sẽ cần một cái gì đó phức tạp hơn khi bạn xác định hơn 10 giá trị cho mỗi ô vuông, một giá trị cho mỗi loại kết hợp loại đơn vị và trình phát?