Tôi hiện đang đọc về học máy và tự hỏi làm thế nào để áp dụng nó vào chơi Connect Four .
Nỗ lực hiện tại của tôi là một phân loại đa lớp đơn giản sử dụng mô hình hàm sigmoid và phương thức one-vs-all.
Theo tôi, các tính năng đầu vào phải là trạng thái (đĩa của trình phát 1, đĩa của trình phát 2, trống) của các trường lưới 7x6 = 42.
Đầu ra sẽ là số hàng để đặt đĩa vào. Bởi vì đó là một số rời rạc trong khoảng từ 1 đến 7, tôi đoán đây có thể được coi là một vấn đề phân loại đa lớp.
Nhưng làm thế nào để tôi tạo ra các ví dụ đào tạo có thể sử dụng trong học tập có giám sát?
Mục tiêu chính là giành chiến thắng trong trò chơi nhưng kết quả rõ ràng là không được biết đến khi làm mọi việc trừ lượt cuối cùng. Nếu tôi chỉ để hai người chơi quyết định ngẫu nhiên chơi gì với nhau hàng ngàn lần, liệu có đủ đơn giản để lấy tất cả các lượt được thực hiện bởi người chiến thắng của mỗi vòng chơi làm ví dụ đào tạo không? Hay tôi phải làm điều này theo một cách hoàn toàn khác?
Chỉnh sửa: Như được đề xuất trong các ý kiến tôi đọc một chút về học tập củng cố. Từ những gì tôi biết, Q-Learning nên thực hiện thủ thuật, tức là tôi phải tính gần đúng một hàm Q của trạng thái hiện tại và hành động để trở thành phần thưởng tích lũy tối đa bắt đầu ở trạng thái đó. Sau đó, mỗi bước sẽ là chọn hành động dẫn đến giá trị tối đa của Q. Tuy nhiên, trò chơi này có quá nhiều trạng thái để thực hiện việc này, ví dụ như bảng tra cứu. Vì vậy, một cách hiệu quả để mô hình hóa Q-Function này là gì?