Làm thế nào để đào tạo một mạng lưới thần kinh cho một trò chơi bảng dựa trên vòng?

11

Tôi đang tự hỏi làm thế nào để đào tạo một mạng lưới thần kinh cho một trò chơi cờ tròn như, tic-tac-toe, cờ vua, rủi ro hoặc bất kỳ trò chơi dựa trên vòng nào khác. Việc di chuyển tiếp theo bằng suy luận dường như khá dễ dàng, bằng cách cung cấp trạng thái trò chơi làm đầu vào và sử dụng đầu ra làm động thái cho người chơi hiện tại. Tuy nhiên, việc đào tạo một AI cho mục đích đó dường như không đơn giản như vậy, bởi vì:

Có thể không có đánh giá nếu một động tác duy nhất là tốt hay không, do đó, đào tạo các động tác đơn lẻ dường như không phải là lựa chọn đúng đắn
Sử dụng tất cả các trạng thái trò chơi (đầu vào) và di chuyển (đầu ra) của toàn bộ trò chơi để huấn luyện mạng thần kinh, dường như không phải là lựa chọn đúng đắn vì không phải tất cả các di chuyển trong một trò chơi bị mất có thể xấu

Vì vậy, tôi tự hỏi làm thế nào để đào tạo một mạng lưới thần kinh cho một trò chơi bảng dựa trên vòng? Tôi muốn tạo một mạng lưới thần kinh cho tic-tac-toe bằng cách sử dụng tenorflow.

training tensorflow game-ai

— rau mùi
nguồn

10

Câu hỏi tuyệt vời! NN rất hứa hẹn cho loại vấn đề này: Cờ vua hươu cao cổ . Thành tựu của Lai được coi là một vấn đề khá lớn , nhưng không may chỉ đến vài tháng trước khi AlphaGo được chú ý. (Tất cả hóa ra tốt, trong đó Lai sau đó được DeepMind thuê, mặc dù không tốt cho động cơ Gi hươu cao cổ ;)

Tôi thấy cách tiếp cận của Lai khá hữu ích và được hỗ trợ bởi kết quả vững chắc.

Bạn có thể muốn sử dụng " tuần tự " trái ngược với "dựa trên vòng" vì tuần tự là thuật ngữ ưa thích trong Lý thuyết trò chơi và Lý thuyết trò chơi kết hợp , và đây là những lĩnh vực áp dụng phân tích toán học cho trò chơi.

Các trò chơi mà bạn liệt kê được gọi là " trừu tượng " để phân biệt chúng với các trò chơi chiến lược hiện đại, hay các trò chơi nói chung, sử dụng một chủ đề mạnh và thường nhỏ gọn hơn các trò chơi trừu tượng về mặt cơ học và các yếu tố. Điều này mang đến sự cảnh báo rằng các trò chơi trừu tượng không bị giới hạn trong các trò chơi hoặc trò chơi liên tiếp, hoặc thậm chí các trò chơi cụ thể, như trong trường hợp các câu đố như Sudoku.

Tên chính thức của nhóm này của trò chơi nói chung là " đảng phái , tuần tự, xác định , thông tin hoàn hảo " với việc phân loại hơn nữa của Tic-Tac-Toe là "tầm thường" (giải quyết và dễ dàng giải quyết được) và không tầm thường (khó và chưa được giải quyết) cho các trò chơi như Cờ vua và cờ vây.

— DukeZhou
nguồn

7

Tôi là người chơi cờ và câu trả lời của tôi sẽ chỉ có trên cờ vua.

Đào tạo một mạng lưới trung lập với học tập củng cố không phải là mới, nó đã được thực hiện nhiều lần trong tài liệu.

Tôi sẽ giải thích ngắn gọn các chiến lược chung.

Mục đích của một mạng là để tìm hiểu đánh giá vị trí. Chúng ta đều biết một nữ hoàng mạnh hơn một giám mục, nhưng chúng ta có thể làm cho mạng biết về nó mà không cần lập trình rõ ràng không? Cấu trúc cầm đồ thì sao? Mạng có hiểu làm thế nào để đánh giá liệu một vị trí có chiến thắng hay không?
Bây giờ, chúng tôi biết tại sao chúng tôi cần mạng, chúng tôi sẽ cần thiết kế nó. Thiết kế khác nhau hoàn toàn giữa các nghiên cứu. Trước khi học sâu là phổ biến, mọi người đã sử dụng mạng nông. Ngày nay, một mạng lưới với nhiều lớp nổi bật.
Khi chúng tôi có mạng, bạn sẽ cần tạo một động cơ cờ vua. Mạng lưới thần kinh không thể tự chơi cờ một cách kỳ diệu, nó cần kết nối với một cỗ máy cờ vua. May mắn thay, chúng tôi không cần phải viết mã đánh giá vị trí vì mạng có thể làm điều đó cho chúng tôi.
Bây giờ, chúng tôi phải chơi trò chơi. Chúng ta có thể bắt đầu với một số cơ sở dữ liệu cờ vua chất lượng cao hoặc thay vào đó có tác nhân AI của chúng tôi chơi trò chơi với một người chơi khác (ví dụ: chính nó, một tác nhân AI khác hoặc con người). Điều này được gọi là học tăng cường .
Trong khi chúng tôi chơi trò chơi, chúng tôi cập nhật thông số mạng. Điều này có thể được thực hiện bằng cách giảm độ dốc ngẫu nhiên (hoặc các kỹ thuật tương tự khác). Chúng tôi lặp lại đào tạo của chúng tôi miễn là chúng tôi muốn, thường là hơn hàng triệu lần lặp.
Cuối cùng, chúng tôi có một mô hình mạng trung tính được đào tạo cho cờ vua!

Nhìn vào các tài nguyên sau để biết chi tiết:

https://chessprogramming.wikispaces.com/Learning

— Chào thế giới
nguồn

Chỉ có cô gái nhỏ mới có nó ở đây

— quintumnia

Đây là một ví dụ về cách cung cấp một liên kết bên ngoài, mà không tóm tắt, có thể gây tổn hại trong tương lai. Vì liên kết được cung cấp hiện đã chết

— Greg Hilston

4

Tôi nghĩ bạn nên làm quen với việc học tăng cường. Trong lĩnh vực học máy này, tác nhân tương tác với môi trường của nó và sau đó tác nhân nhận được một số phần thưởng. Bây giờ, tác nhân là mạng thần kinh, môi trường là trò chơi và tác nhân có thể nhận phần thưởng +1 nếu thắng hoặc -1 nếu thua. Bạn có thể sử dụng trạng thái, hành động, phần thưởng Experenc tuple này để đào tạo đại lý. Tôi cũng có thể giới thiệu các bài giảng của David Silver trên youtube và Sutton.

— Molnár István
nguồn