Tôi không phải là một chuyên gia của chủ đề này, và câu hỏi của tôi có lẽ là rất ngây thơ. Nó bắt nguồn từ một bài tiểu luận để hiểu sức mạnh và giới hạn của việc học tăng cường như được sử dụng trong chương trình AlphaGo.
Chương trình AlphaGo đã được xây dựng bằng cách sử dụng, trong số những thứ khác (khám phá cây cối, v.v.), mạng lưới thần kinh được đào tạo từ một cơ sở dữ liệu khổng lồ về các trò chơi cờ vây do con người chơi và sau đó được củng cố bằng cách cho phép chơi các phiên bản của chương trình chống lại chính nó nhiều lần.
Bây giờ tôi tự hỏi điều gì sẽ xảy ra là chúng tôi đã cố gắng xây dựng một chương trình như vậy mà không có cơ sở dữ liệu của con người, tức là bắt đầu với một chương trình cơ bản của Go chỉ biết các quy tắc và một số phương pháp để khám phá cây cối, và chơi với chính nó để cải thiện mạng lưới thần kinh của nó. Chúng ta, sau nhiều trò chơi chống lại chính nó, sẽ đến một chương trình có thể cạnh tranh hoặc đánh bại những người chơi giỏi nhất của con người? Và nếu vậy, cần bao nhiêu trò chơi (theo thứ tự độ lớn) cho điều đó? Hoặc ngược lại, một chương trình như vậy sẽ hội tụ về một người chơi yếu hơn nhiều?
Tôi cho rằng thử nghiệm đã không được thực hiện, vì AlphaGo rất gần đây. Nhưng câu trả lời có thể rõ ràng đối với một chuyên gia. Nếu không, bất kỳ phỏng đoán giáo dục sẽ quan tâm đến tôi.
Người ta cũng có thể đặt câu hỏi tương tự cho các trò chơi "đơn giản hơn". Nếu chúng ta sử dụng các kỹ thuật học tăng cường tương tự được sử dụng cho AlphaGo, nhưng không sử dụng cơ sở dữ liệu của con người, cho chương trình Cờ vua, cuối cùng chúng ta sẽ có được một chương trình có thể đánh bại con người tốt nhất? Và nếu vậy, làm thế nào nhanh? Điều này đã được thử chưa? Hoặc nếu không phải là Cờ vua, vậy còn Cờ đam, hoặc các trò chơi đơn giản hơn thì sao?
Cảm ơn rất nhiều.